项目实施应急预案总则

紧急故障应急措施应以快速恢复用户使用为目标,第一时间将用户使用状态恢复到正常,避免或尽量减少因故障而导致的损失。
Pasted image 20241218143655.png

本项目实施应急预案的目的

项目是一个复杂的系统工程,涉及设备、软件及信息安全多个层面。平台的核心技术包括视频监控、应急指挥、网络系统、主机存储、安全保护、数据库管理系统以及应用软件等。如果系统发生故障,轻则导致数据丢失,重则可能引发信息系统紊乱或中断,甚至影响整个信息化平台的正常运行。

为了增强信息化平台对突发事件的应对能力,并确保平台的稳定、可靠运行,我们制定了本应急预案。该方案依据突发事件的类型与应急响应目标,针对因系统故障、恶意攻击等突发状况可能造成的严重后果,提出科学有效的应急响应措施。我们的目标是确保在事件发生时,能及时启动响应程序,迅速排除故障,并有效控制影响,最大程度地减少系统损失和消极影响,从而维护信息化平台的正常运行与业务连续性。

通过本应急预案的实施,我们力求在任何突发情况下,能够快速、有效地恢复平台运行,确保信息安全和数据完整性,保障平台服务的稳定性与可靠性。

本项目实施应急预案的原则

本项目管理局将重点保护基础信息系统,落实“预防为主”的安全策略。在此基础上,围绕预防、监控、应急处理、应急保障和打击犯罪等环节,通过法律、管理、技术和人才等多维措施,确保各方力量的充分发挥,形成全方位的安全防护体系。

在公司突发事件领导小组的统一指挥下,各部门明确分工、紧密协作,建立快速、科学的网络与信息安全事件处理机制。确保一旦发生事件,各相关部门能够迅速反应,协调配合,稳妥处置,最大限度地控制事态发展。

面对信息化平台突发的应急事件,将启动快速反应机制。通过及时获取准确的事件信息,进行深入分析,作出果断决策,并迅速开展应急处置工作,力求将危害和影响降至最低。

保障政府、公共利益,以及公民、法人和其他组织合法权益的安全是我们的首要任务。我们将迅速采取必要措施,最大限度地避免政府和公民财产的损失,确保社会稳定。

按照“谁主管谁负责,谁运营谁负责”原则,结合“条块结合,以条为主”的管理模式,建立和完善安全责任制及联动工作机制。各部门根据职能分工明确责任,协调配合,形成合力,共同履行应急处置职责,确保应急管理有序、高效开展。

一旦发生网络与信息安全事件,按照应急报告流程及时上报,启动应急预案,迅速采取有效措施进行处置。我们力求将事件的危害和影响降至最低,确保信息系统的稳定运行。

明确突发事件的报告路径和渠道,确保一旦发生事件或潜在危机,能够及时、有效地通知相关人员,并采取相应措施。确保事件报告和沟通无延迟、无盲区,保障各方及时响应。

本项目实施应急预案适用范围

本预案适用于信息化建设项目的实施及维护。

本预案所指的信息系统包括不限于智慧保护平台、科研监测平台、自然宣教平台、数据平台、基础设施平台。

本项目应急事件分类分级

本应急方案所称系统突发应急事件,是指信息化建平台重要信息系统突然遭受不可预知外力的破坏、毁损、故障,发生对国家、社会、公众造成或者可能造成重大危害,危及信息化平台系统稳定运行、影响政务业务及应用系统的紧急事件。

响应分级

针对事故的危害程度、影响范围和单位控制事态的能力,将事故分级,按分级负责的原则明确应急响应级别。

响应程序

根据事故大小和发展态势,明确应急指挥、应急行动、资源调配、应急避险、扩大应急等响应程序。

本项目应急处置基本原则及流程

加强对信息化系统日常检查维护,及时发现和消除危及平台系统的各类事故隐患,当发现故障时,应当即报告应急领导小组。

信息化平台系统出现故障,事故等应急事件时,维护人员和各级应急人员应正确履行应急预案的职责和执行应急领导小组下达的命令。
![[Pasted image 20241218145902.png]]

本项目应急保障组织机构

我公司针对本次项目组建了专业的技术团队,成立应急组,保证在用户系统出现应急事件重大故障时(如出现重大的几种故障、重大安全漏洞、重大系统安全事件、病毒大规模泛滥等),能立即做出响应,快速查清事件原因,排查安全隐患,保障项目顺利实施。

各小组职责:

1、应急领导小组(运维领导小组)

应急领导小组由我公司领导、客户相关领导、项目经理、项目技术经理等组成;

  • 负责故障的评估、定级、批复,启动应急预案;
  • 负责各种资源的总体协调,快速部署各产品、各部门、各小组人员到位;
  • 根据故障的范围和时间对问题进行征集汇报;
  • 评审所有重大高危操作。

2、重大事故责任人

  • 负责重大事故的总体接口,接受各种故障的申报,对故障进行判断、定级;
  • 担任现场管理的总负责人,管理现场秩序,协调现场资源,负责将问题处理进展向各方进行通报;
  • 负责联系、协调并督促相关软件厂商进行紧急技术处理和硬件维修;
  • 负责对各方的询问进行答复;
  • 同时要求重大事故责任人应相对固定,通讯方式保持畅通。

3、应急技术处理小组

  • 进行故障排除;
  • 配合软硬件厂家技术支持组进行问题处理;
  • 协助将环境测试工具的需求向用户方相关小组成员转达;
  • 同时要求技术处理小组由各类专业技术人员组成;
  • 如能明确故障点,则以该类型技术人员为技术处理核心,否则,先以安防系统工程师为技术处理核心。

4、系统业务检测小组

  • 负责故障处理前的系统业务检测,以明确故障现象及范围;
  • 负责故障恢复后的系统业务检测,以验证故障已经恢复;
  • 同时要求检测人员应熟悉应用业务和检测方法。

5、应急资源准备小组

  • 负责故障处理所需各种资源的准备工作,并进行定期检查;
  • 包括工具、仪器、物料、线缆、厂商备品备件、终端、车辆等,负责远程维护接入环境的准备。

本项目应急保障职责

突发事件管理领导小组

根据《突发事件管理办法》的有关规定,项目突发事件管理采取长期性的管理机构和临时工作小组相结合,职能部门牵头归口管理和各单位逐级落实相结合的组织架构。

公司突发事件管理领导小组负责全面领导、指导、协调和指挥处置公司重大突发事件。

本项目应急组

本项目实施部门负责处置项目施工相关技术系统突发事件的应急处置工作。具体分工如下:

1.公司管理团队:负责对项目经理进行应急通报和处置;协调公司“人才物”资源。

2.项目经理:负责项目实施过程中的应急通报和处置;项目中各平台子系统等系统突发事件进行应急通报和处置。

3.信息技术部安全管理团队:负责通信网络的应急通报和处置;大规模病毒、网络攻击的应急通报和处置;网络运行中断和异常的应急通报和处置。

其他部门

公司总经办、相关业务部门、各事业部负责协助处置因信息系统故障引发的各类安全维稳事件。

一般应急处置预案

应急领导小组负责人接到应急报警后,应迅速赶到现场检查,并通知相关部门报告故障事件的主要内容,同时指派专业技术人员进行现场应急处理,确保系统稳定运行。还应及时做好纸质记录,以便在云平台系统故障消除后,准确补充相关记录。

一、服务器故障

(一)技术部署及操作步骤

  1. 备份数据库数据;
  2. 处理电源损坏问题;
  3. 更换备用电源;
  4. 更换损坏硬盘,启用备用硬盘;
  5. 如果网卡或主板损坏,启用备用服务器;
  6. 检查备用服务器启用情况;
  7. 启用备用服务器并恢复应用系统,检查应用系统的数据丢失情况,根据日志和备份文件进行数据恢复;
  8. 汇报单位有关领导;
  9. 联系服务器维修服务商;
  10. 做好事件记录。

(二)测试方法

  1. 检查物理CPU的配置信息;
  2. 检查内存及内存槽位的使用情况;
  3. 检查本地磁盘状态;
  4. 检查网卡数量和状态;
  5. 检查HBA卡信息;
  6. 对服务器整体硬件进行全面测试,包括CPU、内存、系统板、端口等。

二、存储设备故障

(一)技术部署及操作步骤

  1. 备份存储数据;
  2. 处理电源损坏消除报警,卸下损坏的电源模块并更换备用电源;
  3. 更换损坏风扇;
  4. 更换损坏硬盘,启用备用硬盘;
  5. 如果硬件无法启动,启用备份存储设备;
  6. 检查备份存储设备运行情况,检查应用系统数据丢失情况,并根据日志和备份文件进行恢复。恢复完成后,检查数据的完整性和正确性;
  7. 汇报单位有关领导;
  8. 做好事件记录。

(二)测试方法

  1. 检查网络连接情况,进行Ping大包测试,确认是否频繁丢包;
  2. 查看系统日志,下载并分析错误信息;
  3. 硬盘测试,通过管理软件检查是否存在掉盘或RAID降级现象;
  4. 软件测试,查看运行日志,记录错误信息并进行测试;
  5. 硬件检查,打开机盖检查硬件,包括板卡插紧、内存插紧、CPU风扇状态、CPU温度等。

三、安全设备故障

(一)技术部署及操作步骤

  1. 检查设备工作状态,查看状态指示灯,排查故障现象;
  2. 检查设备周围环境,排除外围因素的影响;
  3. 如果硬件无法启动,及时启用备份安全设备;
  4. 检查备份安全设备的运行状态,确保数据流正确,安全设备功能正常;
  5. 汇报单位有关领导;
  6. 做好事件记录。

(二)测试方法

  1. 设备单独测试:在移除设备不会影响网络应用或影响较小且用户允许的情况下,将怀疑故障的设备从网络中移出,观察应用是否恢复正常;
  2. 网络测试:测试物理线路、数据链路、设备端口、MTU值等;
  3. 路由测试:使用Ping、Tracert等工具测试路径上的各节点,分析数据包的往返路径;
  4. 策略测试:检查并测试安全设备的协议、端口号、服务放开情况。

重大应急事件处置

网络系统出现重大故障

网络系统重大故障定义: 当出现大规模网络通信故障,导致业务平台无法正常运行时,即视为网络系统重大故障。

此类故障通常由硬件设备故障引起。若关键网络设备发生故障并导致系统无法运行,我公司将派遣专业工程师与客户及相关负责人(如运营商、厂商)协同工作,迅速进行备用设备的配置、调试与安装,确保系统能够尽快恢复运行。

服务器及存储系统重大故障

在系统实施过程中,我们已预先考虑多种冗余备份方案,确保服务器系统具备较高的可靠性和可用性。然而,若发生重大故障导致系统无法使用或性能下降,我们将立即采取应急措施,尽快恢复系统正常运行。服务器系统的重大故障主要由以下两方面原因引起:软件故障和硬件故障。

我们定期对服务器进行系统备份,并验证备份的有效性。若发生软件故障,我们将迅速定位故障原因,并采取相应的解决措施。若系统无法修复,我们将从备份中恢复至最近正常状态,以确保业务系统的快速恢复。为了避免硬盘等高故障率部件的影响,我们建议配备足够的备件,便于及时更换,确保系统正常运行。

出现重大系统安全事件

重大安全事件定义:

重大安全事件通常指非法入侵或病毒泛滥,导致系统瘫痪并无法使用。此类事件对项目可能产生负面社会影响,例如网页被篡改等。

处置措施:

  • 非法入侵: 我们将使用备份系统替代被入侵的系统,立即对被入侵的系统进行分析,识别漏洞和入侵源,修补系统漏洞,防止再次入侵。必要时,我们将协助客户追究入侵者的法律责任。
  • 定期巡检: 包括所有应用系统页面的检查。
  • 漏洞扫描: 定期进行漏洞扫描,覆盖所有联网的服务器和客户端。
  • 防病毒措施: 我们建议安装防病毒系统,以有效防护已知病毒。对于未知病毒,我们将首先定位并隔离病毒源,防止进一步危害。与此同时,我们将与防病毒系统厂商合作,共同查杀并解决病毒问题。

灾难性系统故障

灾难性系统故障定义:

灾难性故障指由于不可抗力灾害(如地震、火灾、洪水等)造成的系统故障。

处置措施:

若发生灾难性故障且设备仍可运行,我们将与客户及相关硬件、软件供应商协同合作,恢复硬件平台(包括服务器、交换机、路由器、存储系统、安全系统等)和系统平台(操作系统、数据库系统)。随后,我们将从系统备份中恢复数据,确保业务系统尽快恢复正常运行。

应急预案后续处理

影响最小化处理

本项目应急事件进行最初的应急处置以后,应及时采取行动,抑制其影响的进一步扩大,潜在的损失与破坏,同时要确保应急处置措施对涉及的相关业务影响最小。

应急事件被抑制之后,通过有关事件或行为的分析结果,找出其根源,明确相应的补救措施并彻底清除。

在确保问题事件解决后,要及时清理系统、恢复数据、程序、服务,恢复工作应避免出现误操作导致数据丢失。

应急记录上报

本项目应急事件发生时,应及时向应急领导小组及客户相关应急处置工作组汇报,并在事件处置工作中作好完整的过程记录,及时报告处置工作进展情况,保存各相关系统日志,直至应急处理工作结束。

事件处理总结

系统恢复运行后,应急领导小组对事件造成的损失,事件处理流程和应急预案进行评估,对响应流程、预案提出修改意见,总结事件处理的经验和教训,撰写事件处理报告,同时确定是否需要上报该事件及其处理过程,需要上报的应及时准备相关材料;属于重大事件或存在违法犯罪行为的,第一时间向公安机关网络监察部门报案。