[6.1.1 장애 대응절차 수립] 📖 1) 클라우드 시스템(SaaS 서비스, 가상서버 등) 장애를 즉시 인지하고 대응하기 위한 절차를 수립 ∙ 이행하고 있는가?

6. 서비스 연속성 관리 > 6.1 장애대응
🔍 점검 취지 및 해설
■ 클라우드컴퓨팅서비스를 안전하게 유지하고 장애 발생 시 즉각 대응할 수 있는 장애 대응절차를 수립하여야 한다.

- 장애 대응절차에는 장애 발생 시 내부보고 절차, 법적 통지 및 신고 의무에 따른 보고절차, 발생한 장애를 처리하기 위한 절차, 장애 복구를 위한 절차, 장애 복구를 위해 필요한 데이터 등의 백업 절차, 재발 방지대책을 세우기 위한 절차 등이 포함되어야 함.

- 장애는 침해사고와 구별되어 식별되어야 하며, 침해사고 대응절차와는 별도의 절차 수립

- 장애 대응절차에는 백업 관련 절차를 포함 ·백업 대상, 백업담당자 지정, 백업 주기 및 보존기한, 백업 매체 관리 등

■ 장애 대응절차는 발생 가능한 장애의 유형과 장애의 심각도에 따라 대응할 수 있도록 상세한 절차가 포함되도록 작성한다.

- 장애 유형 및 심각도 정의

- 장애 유형 및 심각도별 보고절차

- 장애 유형별 탐지 방법 수립 : NMS 등 관리시스템 활용

- 장애대응 및 복구에 관한 책임과 역할 정의

- 장애 유형별 대응 및 복구절차

- 장애 기록 및 분석

- 장애에 따른 이용자 통지 절차

- 비상연락체계(유지보수업체, 정보시스템 제조사) 등
✍️ 운영 현황 및 증적 기록
작성 완료됨

■ 클라우드컴퓨팅서비스를 안전하게 유지하고 장애 발생 시 즉각 대응할 수 있는 장애 대응절차를 수립하여야 한다.

-->침해사고대응지침과 별개로 장애대응지침 수립이 필요합니다.

아래는 서비스연속성관리지침 셈플입니다.

2장 장애대응 절차

4(장애유형 분류)

발생원인 관점의 장애 분류 기준은 다음과 같다.

통제

재해 및 장애

발생원인

대응방안

불가능

자연재해

- 화재(전 산실, 사무 실)

- 지진 및 지반침하

- 장마 및 폭우 등의 수재, 태풍 등

- 재해복구센터 구축을 통한

- 장비 및 프로그램의 이중화,

- 데이터 백업 및 소산 철저

인적재해

- 시민폭동

- 폭탄테러 등

- 백업 또는 대체요원 확보

가능

인적재해

운영

장애

- 시스템운영 실수

- 단말기 및 디스크 등의 파괴

- 해커의 침입

- 컴퓨터 바이러스의 피해

- 자료유출 등

기술적

장애

시스템

장애

- 운영체제 결함

- 응용프로그램의 결함

- 통신 프로토콜의 결함

- 통신 소프트웨어의 결함

- 하드웨어의 손상 등

- 전산기기 이중화 및 프로그램

- 변경통제 강화,

- 재해복구 (DR)센터 구축을

- 통한 기기 및 프로그램의

- 이중화, 통신망 이중화,

- 전력공급 중 단 에 대비한

- 무정전설비(UPS) 및 발전설비 구축

기반 구조

장애

- 정전사고, 단수, 설비 장애

- 건물의 손상 등

5(장애탐지)

서버관리자는 장애상황을 상시 모니터링 하여야 한다.

1.타 부서에 의한 장애신고

2.시스템 콘솔 메시지 및 시스템 관리도구 화면의 장애 메시지

3.네트워크 트래픽 지연

장애가 탐지되면 업무별 관리자는 다음과 같이 장애등급을 분류한다.

구분

장애 분류 기준

중대 장애

- 중요한 업무기능을 수행하는 다수 사용자의 업무중단 및 지장을 초래하는 장애

- 데이터의 손실이나 손상으로 인한 업무 중단

일반 장애

- 시스템의 기능 저하가 발생하여 일부 업무수행 속도에 지장을 초래하는 장애

- 비 핵심 업무기능을 수행하는 다수 사용자의 업무중단 및 지장을 초래하는 장애

6(장애처리 및 복구)

서버관리자는 다음 각 호의 사항을 분석하여 장애의 원인을 분석한다.

1.서버, 정보보호시스템

) 시스템 콘솔 메시지

) 응용프로그램 에러메시지(응용프로그램에서 생성된 메시지)

) 응용프로그램 로그

) 시스템 관리도구 메시지

) 시스템 로그(시스템 생성 로그)

) 포트 및 F/W, IDS 등 정보보호시스템의 정책 확인서, 각 시스템 관련 H/W 장애

2.데이터베이스

) 데이터베이스 프로세스 확인

) 데이터베이스 로그 확인

) 데이터베이스 서버의 이상 유무 확인

) 데이터베이스 저장 공간 확인

장애발생 시 서버관리자는 정보보호 담당자에게 보고한 후 장애원인을 파악하여 조치를 강구하여야 한다.

장애원인이 명확하지 않거나 원인 규명에 시간이 소요된다고 판단되는 경우는 정보보호 담당자에게 보고한 후 긴급조치를 취하여 장애를 최소화하고 사후에 상세 원인을 분석하여야 한다.

다음 각 호의 경우에는 원인규명을 생략할 수 있다.

1.원인규명에 소요되는 비용이 긴급조치 비용보다 과다할 경우

2.제조업체, 공급업체 또는 유지보수업체의 기술자가 분석하여도 그 원인을 알 수 없는 경우

3.하드웨어, 소프트웨어 및 네트워크 등 다양한 요소가 복합적으로 적용하여 그 원인을 정확히 알기가 어려운 경우

4.원인규명을 위한 증거를 확보하기가 어려운 경우

5.기타 원인규명이 곤란하거나 불가능한 경우

서버관리자는 장애발생 시 정보보호 담당자에게 보고한다.

장애처리 및 복구수행 시 절차는 다음 각 호와 같다.

1.중대 장애의 복구는 타 업무에 우선하여 조치

2.과거의 장애조치 기록 등과 유사한 장애의 경우는 해당 절차에 따라 장애복구

3.자체 기술력으로 조치 수리 불가능 시에는 유지보수업체 기술담당자에게 연락

4.장애발생에 대한 분석 및 조치사항 등을 별지 제1장애관리대장에 작성하여 유지 관리

7(재발방지)

장애가 발생한 경우 장애 복구를 완료한 이후 해당 장애가 반복적으로 발생하지 않도록 재발방지대책을 수립하여야 한다.

재발방지대책은 장애의 원인을 분석하여 원인을 제거하거나 회피수단을 강구하여 적용하여야 한다.

재발방지대책이 수립되면 해당 내용을 장애가 발생한 서비스를 운영하는 이해관계자 등에 게시, 교육, 통지 등을 통하여 숙지하도록 하여야 한다.

재발방지대책이 장애조치 보고서에 포함된 경우 별지 제4호 장애조치 보고서로 증적을 대체할 수 있다.

3장 성능 및 용량 관리

8(서버의 성능 및 용량 관리)

서버의 사용량(CPU, 저장장치, 메모리 등)을 주기적으로 감시하여 서버 성능 목표, 성능 관련 요구 사항, 성능 측정 대상 및 성능 요구 수준을 정의한다.

성능 요구 분석 결과를 바탕으로 다음 각 항목을 정의하여 성능 계획을 수립한다.

1.성능 분석 대상 별 성능 요구 수준

2.성능 분석 대상 별 임계값

3.성능 모니터링 및 정보수집 방법

주기적인 성능 분석을 위한 기초 데이터를 수집하여야 하며, 성능 분석을 위한 기초 데이터는 다음 각 항목을 고려하여 선정한다.

구분

성능 및 용량

서버

-CPU 사용량 평균 사용률 및 최대 사용률

-메모리 사용률

-디스크 사용률

DB

-디스크 사용량

네트워크

-네트워크 회선 평균 사용률

-네트워크 회선 최대 사용률

스토리지

-디스크 사용률

-디스크 응답속도

-I/O 건수

정보보호시스템

-CPU 사용률

-메모리 사용률

-디스크 사용률

매월 사용량에 대해서 별지 제2성능 용량 분석 보고서를 작성하여 정보보호 담당자에게 보고하여야 한다.

1.수집된 성능 분석 항목 정보

2.누적된 성능 정보 변화 추이

3.임계치를 초과한 경우

4.장애 및 성능 저하로 인한 사용 지연사항

성능 문제를 해결하기 위하여 성능 개선 방안 수립 사항은 다음 각 호와 같다.

1.H/W 리소스 부족 또는 성능 저하가 예측이 될 경우

2.응용프로그램 리소스 사용이 과다한 경우

3.응용프로그램의 응답속도가 느려지는 경우

성능 문제를 해결하기 위하여 성능 개선 방안 수립 사항은 다음 각 호와 같다.

1.용량 증설 및 성능 모니터링 기능 강화

2.세부 성능 분석 결과에 따른 시스템 성능 파라미터 조정

3.응용프로그램 및 배치작업의 수행시간 조정 등

4장 이중화 및 백업

9(주요 정보처리설비 이중화)

이중화 대상이 되는 정보처리설비를 선정하고 해당 정보처리설비에 대하여 이중화 구축 및 운영하여야 한다.

10(백업관리)

서버관리자는 서버 장애 시 신속한 업무 복구를 위해 필요한 내용을 백업대상으로 선정하여야 한다.

서버관리자는 서버의 장애나 저장매체의 불량으로부터 중요정보와 소프트웨어를 보호하기 위해 일별, 주별, 월별 백업 주기를 설정하고 백업 내용은 1년 이상 보관하여야 한다.

백업은 정보통신실의 완전 소실인 경우에도 복구 가능한 수준으로 이루어져야 하며, 소산은 6개월마다 실시한다.

서버관리자는 백업매체를 원본과 물리적으로 떨어진 장소에 보관하여 재해 등으로부터 원본 손실을 방지하도록 물리적인 접근통제 및 백업 일자 목록을 별지 제5호 ‘백업 및 복구 관리대장’에 기록하여 유지 · 관리하여야 한다.

서버관리자는 백업을 위한 DR(Disaster Recovery) 구성 및 서버() 이중화 구성 여부 등을 검토하여 적용할 수 있다

장애대응절차 흐름도 또한 작성해야 합니다

장애대응(응용시스템) 절차 흐름도

장애대응(응용프로그램) 절차 흐름도

장애대응에 대한 세부적이고 구체적으로 명시해야 하기때문에 별도의 매뉴얼을 작성합니다.

1.4. 절차

. 장애감지 및 공유

장애감지는 HW SW 측면으로 나누어 감지한다.

(HW 측면) IaaS에 대해서는 MSP 사업자로부터 장애발생시 상황전파 받으, 운영팀에서 정보보안 담당자에게 연락하여 장애 상황을 공유한다.

(SW 측면) 응용프로그램에 대한 장애 이벤트는 서비스기술팀 전인원이 구글(SMS)으로 문자를수신하며,장애 감지 즉시 해당 SW 장애 관련 담당
자 및 정보보호 담당자에게 연락하여장애 상황을 공유한다.

. 장애조치 및 장애요인 분석

장애관리책임자(정보보호 최고책임자)

o 장애가 복구제한 시간 내 해결되지 않을 경우 장애등급 상향 조정한다.

o 장애등급별 보고체계에 따라 보고하고 조치한다.

장애관리담당자(각 팀별 운영자)

o 서비스 영향도와 긴급도에 따른 장애등급을 파악한다.

o 장애등급별 보고체계에 따라 보고하고 조치한다.

- 보고사항 : 장애발생시간, 내용, 장애영향, 처리내용 등

o 장애가 복구제한 시간 내 해결되지 않을 경우 장애관리책임자에게 장애 등급 상향 조정을 건의한다.

o 장애요소를 파악하며, 장애복구 후 개선대책 마련한다.

o 장애조치 후 장애원인 분석 및 장애보고서를 작성한다.

. 장애상황 해결

장애관리 담당자 : 장애해결 시 정보보호 담당자에게 장애완료를 공유 한다.

정보보호 담당자

o 장애조치 후 장애등급별 보고계통에 따라 장애관리 책임자에게 장애 완료보고를 한다.

o 장애발생 시 클라우드 장애 사고에 대해 공공기관의 담당자의 요청시

아래 내용이 작성된 장애조치 보고서를 제공하여야 한다.

- 장애 발생일시, 보고자 및 보고일시, 장애내용(원인, 내용, 영향범위),

조치 내용, 복구 내용, 재발방지 대책

장애관리책임자

(정보보호 최고책임자)

정보보호 담당자

장애관리담당자

(각 담당자)

개발실

(프론트엔드)

개발실

(데브옵스)

개발실

(모티터링)

서비스기술팀

(운영)

구 분

책 임 과 역 할

장애관리 책임자

(정보보호 최고책임자)

o 장애 발생 관련 업무 총괄

정보보호 담당자

o 장애관리책임자 보좌 및 장애관련 모든 활동을 조정관리

o 정보시스템의 운영환경을 안정적으로 유지

o 외부적으로 필요한 지원조직 간의 협력지원

o 장애 또는 비상상황의 복구 활동에 소요되는 자원 확보

o 장애이력 관리 및 장애복구절차 확립

o 장애등급의 상향 등 장애등급 조정

o 비상연락망 유지관리 및 장애발생 내용 상황전파

장애관리

담당자

개발실

(프론트엔드)

o 장애발생 시 모든 상황파악에 대한 실무 담당

o 장애로 인한 영향력을 최소화 및 신속한 해결

o 장애에 대한 근본원인을 분석해결

o 장애등급의 상향 건의 등 장애등급 조정 건의

o 접수한 장애이력 관리 및 정보보안 담당자 보고

o 해결된 장애에 대한 문서화

개발실

(데브옵스)

개발실

(모니터링)

서비스기술팀

(운영)

o IaaS 공급사에서 제공된 IaaS 장애에 대하여 장애 근본원인

분석해결

o 접수한 장애이력 관리 및 정보보안 담당자 보고

o 해결된 장애에 대한 문서화

협력업체

o 장애감지 시 장애관리담당자 또는 정보보호 담당자에게 상황 전파

상세 내역은 첨부파일 템플릿 참조

장애 대응절차에는 백업 관련 절차를 포함

->백업 관련하여 별도의 매뉴얼을 추가해야 합니다. 백업 관련해서 백업대상,백업시기,보관기간,백업-복구절차, 권한등이 명시되어야 합니다.

1.4. 용어 정의

o 백업

백업은 정보시스템의 장애, 화재와 같은 재해 또는 해킹으로 인한 정보의 손실에 대비하여 파일 또는 데이터베이스를 복사해 별도의 매체에 저장 및 관리하는 행위를 말하며, 대부분의 기업들이 시스템 장애 시 최근 시점으로 복구해 줄 수 있는 중요 업무이다.

o 시스템 백업

정보시스템 OS 영역, 시스템 설정 파일, 시스템 로그 등에 대한 백업을 의미한다. 데이터 백업과 구별하여 보통 OS(Operating System) 백업이라 한다.

o 데이터 백업

데이터가 손상되거나 유실되는 것을 대비하여 데이터를 복사하고 다른 곳에 저장하는 것을 말한다. 저장 장소는 동일 장비 또는 다른 장비의 하드디스크 공간일 수도 있고 별도의 백업 장치일 수도 있다. 일반적으로 백업 대상에는 문서, 소스 코드, DB 데이터 관련 파일 등이 있다.

o 백업 장비(장치)

백업시스템을 구성하기 위해, 필요한 매체, 라이브러리, 채널 등의 물리적인 설비를 의미한다. 백업 장비와 백업 장치는 동일한 용어로 정의한다.

o 백업 매체(미디어)

주요 시스템의 OS, 데이터 영역에 대하여 백업하는 저장장치로 일반적으로 테이프(Tape), 디스크(Disk) 등을 말한다.

o 소산 백업

재난 · 재해 발생 시 백업된 매체를 일정 거리 이상 떨어진 장소에 이격시켜서 보관하는 것으로 지진, 홍수, 화재 등의 재난 · 재해 발생 시 원본의 손실이 있더라도 백업 매체가 원격지에 떨어져 있으므로 손실되는 것을 예방할 수 있다.

o 백업 센터 · DR(Disaster Recovery)센터

운영센터 재해 발생 시 즉각적인 서비스 복구를 위한 업무연속성(Continuity)을 보장할 수 있는 재해복구를 위한 백업 전산센터를 의미한다.

o 백업 구성 방식

백업시스템을 구성하는 형태 및 특징을 의미한다. 백업 솔루션을 구분하기 위해 크게 로컬(다이렉트) 백업, 네트워크 백업, SAN(Storage Area Network) 백업으로 나눠지며 백업 규모, 시간 및 특성에 따라 그 구성 방식이 결정된다.

o 복구시점목표(RPO: Recovery Point Objective)

재해 상황에서 수용할 수 있는 최대 허용 데이터 손실인 것으로 정의한다. 예를들어 재해가 발생했을 때 벙커 노드에 두 시간 분량의 데이터가 있고 한 시간 분량의 데이터만 재생해도 된다면 RPO는 한 시간입니다. 데이터 손실을 수용할 수 없다면 RPO0이다.

o 복구시간목표(RTO: Recovery Time Objective)

복구 시간 목표 데이터를 반드시 복구해야 하는 최대 허용 시간 제한하는 것으로 정의한다. 재해가 발생했을 때 시스템을 즉시 사용 가능 하게 만들어야 하지만 일부 데이터 손실을 용인할 수 있는 경우 RTO0이다.

상세 내역은 첨부파일 템플릿 참조

■ 장애 대응절차는 발생 가능한 장애의 유형과 장애의 심각도에 따라 대응할 수 있도록 상세한 절차가 포함되도록 작성한다.

--> 상기 문서에 포함되어 있습니다.

내용을 수정하거나 파일을 업로드하려면 로그인이 필요합니다.
검토 및 피드백 0

등록된 검토 의견이 없습니다.