ICT콕 소식

공지사항 상세내용
제목 “가상화, 분산, 서드파티, 온프레미스” 4가지 백업·복구 해결 사례
날짜 2019-08-29
첨부파일 없음
데이터 백업과 복구가 마치 ‘블랙박스’와 같은 경우가 있다. 재앙에 가까운 피해가 일어날 때까지 문제를 제대로 인식하지 못하는 경우가 많기 때문이다. 그렇지만 클라우드와 하이브리드라는 선택지가 확대되고 있다는 점에서 개선의 여지가 있다고 볼 수 있다.

명의 네트워크 전문가가 들려준 실제 사례에서 조직의 백업과 복구 프로세스를 강화하는 조치를 취해야 한다는 점을 깨닫게 된 순간과 그것을 계기로 취한 조치의 경험을 물었다.
 

테이프 백업이 지나치게 많아진 캔자스 대학

문제를 깨닫게 된 순간: 2011년 5월, 토네이도가 미국 미주리 주 조플린을 강타했다. 인근 마을에서 자원봉사 소방대장을 맡고 있던 부서 피어슨이 구조 요청을 받았다. 캔자스 주 피츠버그 소재 피츠버그 주립대학교(PSU)에서 인프라 및 보안 담당 디렉터로 일하고 있는 피어슨은 “잘 알고 있었던 마을이었는데, 아무 것도 알아볼 수 없는 상태로 변해 있었다. 사람들이 길을 찾을 수 있도록 거리에 교차로 이름을 페인트로 표시했을 정도였다.”고 말했다.

미주리 주 조플린 소재 데이터센터에서 일하고 있던 동료는 네트워크를 복구하는 방법을 찾는 것은 둘째 치고, 관련된 장소를 찾는 것에도 어려움을 겪었다. PSU는 테이프 백업을 매주 순환시키는 방식으로 사용하고 있었고, 이를 은행 금고에 보관하고 있었다. 그는 지역의 기상 조건을 감안했을 때, 이런 방식이 충분할 정도의 ‘신뢰도’를 제공하지 않는다는 점을 깨달았다. 피어슨은 “우리가 사용하고 있는 방식의 취약점을 곰곰이 생각해야만 했다”고 말했다.
 

분산을 통한 지리적 다양성 확보

조치: 피어슨과 부서원들은 가장 먼저 지리적 취약성을 해결하는 조치를 취했다. Dell이퀄로직(Equalogic) 스토리지 어레이를 추가 설치하고, 가상 컴퓨팅 용량의 50%를 대학의 주 데이터센터가 위치한 캠퍼스 건너편 도서관 지하로 옮겼다. 또 고속 파이버 네트워크를 사용하는 캔자스 리서치 앤 에듀케이션 네트워크를 통해 PSU와 연결이 되어있는 WSU(Wichita State University)에 Dell MD3200 스토리지 어레이를 추가 설치했다. 하루 몇 차례, 두 번째 보관 장소(도서관)로 데이터를 수동 복제했다. 그리고 야간에 WSU로 백업을 보냈다. 이를 통해 기존 사용했던 번거로운 테이프 방식을 없앴다.

피어슨은 “금고에서 회수한 테이프는 1주 정도 된 것들이며, 복구에 하루가 소요되었다. 여기에 더해 주 보관 장소와 2차 보관 장소에서 재해가 발생할 경우, 테이프에서 데이터를 복구하기 더 힘들어진다”고 설명했다.

도서관과 WSU가 잘 작동했지만, PSU 부서는 백업과 복구 프로세스를 한층 더 강화하기로 결정을 내렸다. 그리고 자동 오케스트레이션에 헤드빅 분산형 스토리지 플랫폼(소프트웨어 정의 스토리지)을 도입했다. 헤드빅은 주 데이터센터, 도서관, WSU라는 여러 노드의 실시간 데이터 복제 관리에 합의 기반 정책을 사용한다. 그는 “3개 노드 중 2개가 가동되는 경우, 데이터에 액세스할 수 있다”고 말했다.

최근 계획에 없던 라우터 리부팅 문제로 WSU에 대한 링크가 일시적으로 끊기면서 시스템을 테스트할 기회가 생겼다. 피어슨은 “헤드빅은 문제를 포착했고, 15분 뒤 링크가 복구되는 즉시 WSU 시스템을 다시 가동시켰다. 그 동안, 우리 데이터센터는 정상적으로 가동되었다”고 말했다.

헤드빅은 유닉스 서버에 호스팅 되어 있고, iSCSI 연결을 사용하는 대학의 레가시 시스템도 훌륭히 지원한다. 피어슨은 “우리가 조사했던 업체들 중 이런 종류의 레가시 구성(대학이 사용하고 있는)을 지원하지 않는 업체가 대부분이었다. 그러나 헤드빅은 이를 훌륭히 지원한다. 헤드빅의 클라이언트 ‘프록시’ 인터페이스(작은 물리, 또는 가상 리눅스 서버)는 헤드빅 스토리지 환경을 연결하는 멀티프로토콜 커넥터 기능을 하며, NFS와 아마존 S3, 심지어 iSCSI 같은 다양한 록 및 객체 지향형 프로토콜을 제공한다.”고 설명했다. 

PSU의 IT 부서는 노드 가동을 중단시키고 응답 시간을 기록하는 등 정기적인 유지보수 활동의 일환으로 복구 용이성을 테스트한다. 모든 스토리지 네트워크 구성을 기록하고, 자주 업데이트한다. 

피어슨은 “자원봉사 소방대와 조플린에서의 경험 덕분에 ‘당연하게 받아들일 수 있는 것은 없다는 점을 깨달었다. 가능한 지리적으로 다양하게 스토리지 네트워크를 구성하는 것이 좋다”고 말했다.
 

백업 취약성을 강화한 미국 교정 서비스국

문제를 깨닫게 된 순간: 미국 아이오와 주 교정 서비스국의 시스템 관리자인 드웨인 칼드웰은 “사람으로 초래된 문제, 자연 재해라는 두 차례의 문제가 백업과 복구 방식을 변화시키는 계기가 되었다”고 설명했다. 칼드웰은 아이오와 북동부의 11개 카운티를 대상으로 교정 관련 서비스를 제공하는 DCS 산하 ‘제1사법권’에서 일하고 있다.

관리감독 직종의 사용자 한 명이 랜섬웨어에 감염된 웹 사이트를 방문했다. 이 사용자는 해당 웹사이트에 랜섬웨어가 있는 것을 몰랐다. 칼드웰은 “그 사람의 잘못이 아니었다”고 말했다. 어쨌든 이 랜섬웨어가 주 파일 시스템에 침입을 했다. 그러나 칼드웰과 부서원이 꽤 빠르게 사고를 저지할 수 있었다. 복구에 쓸 백업을 마련해뒀기 때문이다. 그러나 정상 운영 상태로 복구하는 데 예상보다 많은 시간이 소요되었다. 그는 “직원 대상 트레이닝이 도움이 되기는 하지만, 소셜 엔지니어링은 통제할 수 없는 부분이다. 통제할 수 있는 부분은 복구 시간뿐”이라고 말했다.

두 번째 계기는 폭풍우로 건물에 누수 사고가 발생했던 때이다. 주 (데이터 보관)사이트인 건물이었다. 그리고 보조 사이트가 위치한 건물에는 정전 사고가 발생했다. 칼드웰은 “완전한 다운타임이 발생할 정도로 취약할 것이라고는 생각도 못했다. 그런데 그런 일이 일어난 것”이라고 말했다. 주 사이트와 보조 사이트 위치를 가까이에 두고, 다른 대안은 없는 방식은 신뢰도가 아주 낮을 수밖에 없다.
 

가상화로 데이터 복구 속도를 앞당김

조치: DCS와 교정국은 최근 몇 년 간 가상 데스크탑 인프라를 사용하는 등 컴퓨팅 환경을 가상화 하는 노력을 경주했다. 칼드웰에 따르면, DCS 산하 ‘제1 사법권’은 약 80%의 환경을 가상화했다. 이를 통해 새로운 데이터 백업 및 복구 계획을 훨씬 더 단순하게 구현할 수 있었다.

DCS는 데이터센터와 원격 사이트의 긴급 복구, 데이터 보호, VDI 처리에 뉴타닉스 코어 하이퍼컨버지드 인프라를 사용하고 있다. 그는 “누군가 실수를 저질렀을 때 보이지 않는 장소에서 자동으로 백업과 복구가 이뤄지도록 정책을 설정할 수 있다”고 말했다.

뉴타닉스 시스템은 주기적으로 프로덕션 환경의 스냅샷을 캡처해 저장한다. 덕분에 랜섬웨어 공격을 받는 등의 문제가 발생할 경우, 칼드웰과 부서원들은 15분마다 생성되는 스냅샷의 가장 최신 상태로 시스템을 자동 복구할 수 있다.

IT 부서는 서버 ROM 가동을 중단했고, 특정 노드를 가동 중단하는 과정이 포함된, 복구 시간 테스트 프로세스를 개발했다. 그는 “특정 노드의 VM이 다른 노드에서 다시 가동되기까지 얼마나 많은 시간이 소요되는지 파악하는 데 목적을 두고 있다”고 설명했다.

보호 관찰과 교정 등 대부분의 애플리케이션에 반드시 데이터가 필요하기 때문에 애플리케이션과 함께 데이터가 복구된다. 그는 “사용자는 애플리케이션만큼이나 역사적 데이터에도 액세스할 필요성이 있다”고 설명했다.

홍수나 폭풍우로 인해 뉴타닉스 시스템의 데이터를 사용할 수 없는 경우, 칼드웰은 같은 도시와 다른 지역에 있는 EMC 데이터 도메인 스토리지 어플라이언스에 저장된 증분형 백업을 활용할 수 있다. 이 경우, 지리적으로 가까울 수록 더 자주 백업이 된다. 가장 좋은 백업을 가상 샌드박스 환경으로 보낸 다음, 이후 주 데이터센터로 보낸다.

지금은 과거 어느 때보다 백업 솔루션의 ‘보편성’이 높아진 상태이다. 과거에는 테이프를 복구하는 환경을 원래 구성에 정확히 일치시켰어야 했다. 하이퍼바이저 환경의 경우, 더 빠르면서 효율적으로 데이터를 사용할 수 있는 상태로 만들 수 있다. 가상화 된 환경과 자동화 덕분에, IT 부서원 2명이 스토리지와 관련된 모든 작업을 이행할 수 있게 된 것이다. 칼드웰은 “백업과 복구를 책임지면서, 다른 일도 할 수 있게 되었다”고 설명했다.


마이크로소프트 오피스 365 백업 및 복구

문제를 깨닫게 된 순간: 아퀼리니 그룹(Aquilini Group)은 캐나다 프로 아이스하키 부서인 밴쿠버 캐넉스(Vancouver Canucks)와 홈 경기장인 로저스 아레나(Rogers Arena) 등 여러 자회사를 두고 있다. 또 음식과 음료 서비스 등 로저스 아레나 경기장 운영을 책임지고 있으며, 호텔과 건설 회사, 레스토랑, 블루베리와 크랜베리 농장도 운영하고 있다. 따라서 여러 기업 투자 전반에 걸쳐 데이터를 보호해야 한다. 고객 정보, 감시 카메라 영상, PoS(Point of Sale) 거래 데이터 등 다양한 데이터가 여기에 포함된다. 이 회사는 타사 주도의 SAN 업그레이드가 잘못되면서 데이터 보호 상태를 검증할 기회에 맞닥뜨렸다. 자칫 방대한 데이터를 잃어버릴 수도 있는 문제였다.

캐나다 브리티시 콜롬비아 주 벤쿠버 소재 아퀼리니 인베스트먼트 그룹(Aquilini Investment Group)의 IT 디렉터인 브라이스 할웨그는 “음식과 음료 서비스를 제공할 수 없는 그런 문제였다. 매출 상실과 고객 불만으로 이어질 수 있었다”고 말했다. 다행히 내부 IT부서가 데이터를 적절히 백업해 두었기 때문에, 모든 데이터를 복구할 수 있었다. 그러나 이 사고로 인해 할웨그는 데이터 백업에 대해 더 선행적인 조치를 취하기로 결정했다. 여기에는 클라우드에 기반을 둔 애플리케이션에서 생성된 데이터도 포함된다.
 

SaaS에 대한 서드파티 백업

조치: 아퀼리니 그룹은 1,500여 명의 직원들을 대상으로 마이크로소프트 오피스 365를 도입했다. 마이크로소프트는 애플리케이션의 업타임은 만족할 정도로 보장한다. 그러나 대부분의 SaaS 공급업체처럼 데이터 ‘무결성’을 책임지는 것은 꺼린다. 할웨그는 “일부 요주의 데이터가 오피스 365 네트워크를 경유한다. 이런 데이터를 보호할 필요가 있었다”고 설명했다. 여기에 더해, 메일 데이터를 잃어버릴 경우 생산성이 크게 저하될 수 있었다. 따라서 “보호 계층이 많을 수록 더 좋다. 클라우드 애플리케이션에 대한 2차, 3차 보호 대책이 필요했다”고 말했다.

아퀼리니는 익스체인지 온라인, 쉐어포인트 온라인, 팀즈, 원드라이브 데이터의 삭제를 방지하고, 더 빨리 복구하고, 컴플라이언스 관련 요건을 준수하기 위한 2차 보호 대책, 도구로 빔스의 마이크로소프트 오피스 365용 백업(Veeam Backup for Microsoft Office 365) 솔루션을 활용하고 있다. 이를 통해 조직 내부에, 마이크로소프트 애저나 아마존 웹 서비스 같은 클라우드에, 또는 서드파티 공급업체 사이트에 백업을 저장할 수 있다.

할웨그는 (담당 직원의 수가 많지 않지만)여러 전용 도구를 사용하는 것을 크게 신경 쓰지 않는다. 저장되는 데이터 종류에 맞춰 보호를 하면, 더 빠르면서도 쉽게 복구를 할 수 있기 때문이다. 할웨그는 “정보를 분리하는 것이 좋다. 누군가 특정 장소에 대한 코드를 크랙하고 가장 중요한 데이터에 대한 액세스 권한을 획득하는 위험을 없앨 수 있기 때문”이라고 설명했다.
 

가상 머신의 로컬 보호

문제를 깨닫게 된 순간: 미국 플로리다 잭슨빌 소재 리크루팅 및 헬스케어 IT 컨설팅 회사인 CSI 컴퍼니는 VM웨어로 SQL 서버 등으로 구성된 환경을 가상화 하기로 결정을 내렸다. 이때 이 회사의 매트 그리브스는 복구 시간을 그대로 유지시키기 원했다.

CSI 컴퍼니의 IT 디렉터인 그리브스는 “모든 가상 머신에 복구 테스트를 실시했는 데 결과가 아주 좋지 않았다. 전체 사이트 복구에 30시간이 걸릴 것으로 예상했는 데, 90시간 이상이 소요됐다. 그는 “아주 큰 문제였다. 매주 3,000-4,000명 직원에게 급여를 지불해야 하는데, 급여 처리 시스템 가동이 2시간만 중단되어도 큰 문제가 발생할 수 있다”고 설명했다.

CSI 컴퍼니가 과거 사용했던 백업 및 복구 소프트웨어 환경에서는 IT 직원이 수동으로 백업 실시 시간, 기간, 백업 대상 애플리케이션에 대한 정책을 수립해 적용해야 했다. 이로 인해 백업이 불완전해질 수밖에 없는 ‘갭’이 존재했었다. 치명적인 피해가 발생하면 유일한 해결 방법은 개별 트랜젝션 로그를 수동으로 자세히 조사해 복구하는 방법밖에 없었다.
 

온프레미스 백업이 더 저렴하기도

조치: 그리브스는 가상화 환경을 활용하고, VM웨어 환경에 직접 연결하는 방식으로 루브릭(Rubrik)의 스탠드얼론 스토리지 어플라이언스를 배포하기로 결정을 내렸다. IT는 vCenter에 열거된 VM에 특정 정책을 적용하고, 자동으로 세밀하게 데이터를 보호할 수 있다. 그는 “정책 기반의 백업 포인트를 설정할 수 있다. 즉 SQL 서버에서 트랜젝션 로그 스냅샷은 몇 분 단위로, 완전한 데이터베이스 스냅샷은 몇 시간 단위로 캡처가 되도록 만들 수 있다”고 말했다. 이제 필요 시, 완전한 복구에 트랜젝션 로그가 자동 적용된다.

그리브스는 “과거에는 매일 백업과 복구를 관리해야 했다. 그러나 지금은 경고가 뜨고, 조사할 필요가 있는 경우에만 루브릭을 관리한다”고 말했다. 자료의 경우, 직원이 이 회사의 셰어포인트에 있는 한 페이지 분량의 베스트 프랙티스 자료를 활용하고, 루비크 사용 방법을 빠르게 파악할 수 있다. 

과거에는 백업과 복구를 포함, 인프라와 애플리케이션을 클라우드로 마이그레이션하는 방안을 고려했었다. 그러나 비용이 문제였다. 그리브스는 “인프라를 클라우드로 이전하면 축소와 확장 등이 간편하지만, 이런 도구에 부과되는 시간 단위 비용이 든다. 비용 분석을 실시했는데, 모든 것을 온프레미스에 유지하는 것이 훨씬 더 저렴하다는 점이 드러났다”고 말했다.
 

전문가는 SaaS 백업을 권장

대다수 관리자가 온사이트, 2차 데이터센터를 활용한 데이터 백업 및 복구 역량에 자신감을 갖고 있을 것이다. 그러나 클라우드 기반 서비스를 도입해 활용할 경우, 상황이 복잡해진다.

네머테스 리서치(Nemertes Research)의 CIO 겸 수석 조사 담당 애널리스트인 존 버크는 “CRM 같은 애플리케이션에 대해, 온프레미스 서비스를 클라우드 서비스로 교체하는 조직이 많다. 문제는 이런 서비스가 백업과 복구 문제를 어떻게 처리하는지 제대로 이해를 못한 상태에서 교체하는 것”이라고 지적했다.

또한, 조직이 페일오버 기능과 비즈니스 연속성에만 초점을 맞추고, 데이터 훼손 문제나 앞선 주의 데이터로 롤백이 필요한 상황 등을 고려하지 않는 경우도 있다. 버크는 “이런 부분이 기본 지원 요소가 아닐 수도 있다”고 지적했다.

엔터프라이즈 스토리지 그룹(Enterprise Strategy Group)의 시니어 IT 밸리데이션 애널리스트인 비니 초인스키도 여기에 동의했다. 그는 “SaaS의 경우, 데이터 복구를 직접 책임져야 한다. 누군가 데이터를 삭제하면 어떻게 할 것인가? 따라서 애플리케이션의 복구 환경과 프로세스를 정확히 이해하고 있어야 한다”고 강조했다.

백업과 복구 서비스 공급업체는 계속 증가하고 있는 추세다. 최적의 업체를 선별하는 방법 중 하나는 SaaS 공급업체에 어떤 업체를 선호하는지 질문하는 것이다. SaaS 공급업체의 파트너 중 하나를 선택하면 SaaS 백업을 훨씬 더 쉽게 통합할 수 있다. SaaS에 대한 백업 및 복구 서비스 계약을 맺으면, 경제적인 옵션으로 선택한 SaaS 관련 비용이 크게 증가하겠지만, 버크와 초인스키 모두 이렇게 하지 않을 경우 데이터가 취약해진다고 경고했다. editor@itworld.co.kr 
 

원문보기:
http://www.itworld.co.kr/news/129538?page=0,1#csidx8020cb79c900465987c8383e9fa57d8