[클라우드] AWS 버지니아 리전 장애로 본 클라우드 안정성의 진짜 의미

작성일 : 이소현 October 24, 2025

DNS 문제로 시작된 글로벌 서비스 영향 분석

Intro

국내 시간으로 10월 20일 저녁, 전 세계 수백만 명의 업무와 서비스가 멈췄습니다.
원인은 AWS 버지니아 리전(US-east-1) 에서 발생한 3시간짜리 장애였습니다.

단일 리전에 집중된 핵심 서비스에서 DNS 해석 오류(DNS Resolution Failure)가 발생하면서,
Amazon DynamoDB와 API Gateway를 비롯한 주요 서비스의 요청이 실패했고,
100개 이상의 AWS 서비스가 줄줄이 영향을 받았습니다.

저 역시 피그마(Figma)를 사용하는 입장에서 이번 장애의 파급력을 직접 체감했습니다.
다음날 오전까지 접속이 불안정했던 것을 보면,
이번 사건이 단순한 ‘일시적 장애’로 끝나지 않았음을 알 수 있죠.

그럼 오늘은 왜 이런 장애 사태가 발생했는지,
그리고 우리가 얻을 수 있는 교훈에 대해 이야기해 보겠습니다.

원인은 Amazon DynamoDB와 DNS 캐시 지연

AWS 공식 보고서에 따르면,
이번 장애는 “DynamoDB API 엔드포인트의 DNS 해석 실패가 원인으로 확인되었다”고 밝혔습니다.
내부 네트워크 내 DNS 캐시 갱신이 지연되면서 일부 요청이 오래된 레코드를 참조했고, 이로 인해 API 통신이 전반적으로 실패한 것입니다.

주요 타임라인 (국내 기준)

16:55 – Amazon DynamoDB API 응답 지연 감지
18:22 – 복구 진행
18:35 – 대부분 서비스 정상화

장애의 구체적인 진행 경과와 세부 타임라인은
AWS 공식 공지 페이지에서 확인하실 수 있습니다.

아래는 오후 5시경 AWS 상태 페이지 스크린샷입니다.
당시 Amazon DynamoDB 상태는 Disrupted로 표시되며,
시간이 지날수록 영향받는 서비스가 늘어나는 것을 확인할 수 있었습니다.

숫자로 보는 AWS 버지니아 리전 장애

언론 보도에 따르면,
Amazon은 시간당 7,283만 달러, Snapchat은 61만 달러,
Zoom은 53만 달러의 손실을 입은 것으로 추정됩니다.

이번 장애는 단순한 ‘기술적 사고’가 아니라 비즈니스 리스크였습니다.
추정된 손실액 외에도 SLA 위반, 고객 이탈, 장애 대응 인력 투입 비용까지 고려하면 다운타임의 총 비용은 훨씬 더 커집니다.

구분	수치
장애 리전	US-East-1 (버지니아)
장애 기간	약 3시간 (2025.10.20 16:55–19:50 KST)
영향 서비스	100개 이상 (API Gateway, DynamoDB, Network Firewall 등)
영향 사용자	약 400만 명 이상
추정 손실액	시간당 약 7,500만 달러 (Hindustan Times 기준)
주요 피해 기업	Amazon, Snapchat, Zoom, Reddit, Venmo, Figma

Lesson Learned

1️⃣ 단일 AZ 의존은 리스크다

이번 장애는 AWS US-East-1 리전의 일부 서비스가 중단되며 전 세계 워크로드에 영향을 준 사례입니다.
Reuters는 “이번 사태는 최근 5년간 최소 세 번째로 같은 리전에서 발생한 주요 장애”라며, 특정 인프라에 대한 과도한 집중이 구조적 리스크를 만든다고 지적했습니다.

--> 핵심 워크로드는 반드시 여러 AZ에 이중화 구성해야 합니다.
리전 단위 장애는 드물지만, AZ 단위 문제는 언제든 발생할 수 있습니다.
Multi-AZ 기반 고가용성(HA) 설계가 AWS의 가장 큰 장점 중 하나이며,
실제 비즈니스 연속성을 확보하는 가장 현실적인 방법입니다.

2️⃣ 눈에 보이지 않는 의존성이 가장 큰 리스크다

이번 장애의 원인은 서버나 스토리지가 아닌 DNS 해석 오류였습니다.
많은 기업이 이런 ‘공통 인프라 계층(Shared Layer)’의 중요성을 간과하죠.

--> DNS, 인증, API 연동 등 숨은 연결고리까지 점검하는 것이 진짜 안정성 관리입니다.

3️⃣ 빠른 복구보다 중요한 건 ‘즉각적인 감지’다

AWS는 3시간 만에 복구했지만, 이미 수백만 명의 사용자가 문제를 겪었습니다. 저 또한 다음 날 까지 피해를 체감 할 수 있었고, 그에 따른 모니터링 체계가 필요합니다.

-->문제를 조기에 감지하고 대응할 수 있는 실시간 모니터링 체계가 있어야
고객 피해를 최소화할 수 있습니다.

4️⃣ 장애는 기술 이슈가 아닌 ‘비즈니스 리스크’다

--> 글로벌 서비스 중단으로 시간당 약 7,500만 달러(약 1,000억 원) 손실이 발생한 것으로 추정됩니다.
클라우드 안정성 투자는 단순 비용이 아니라 비즈니스 연속성(BCP)을 위한 보험입니다.

마무리하며

이번 AWS 버지니아 리전 장애는
동시에 “완벽한 설계가 안정성을 만든다”는 사실을 다시 상기시켰습니다.

저는 AWS 공식 MSP로서,
고객의 클라우드 환경이 단일 리전에 종속되지 않도록
멀티 리전 아키텍처 설계, DNS 모니터링, DR 시뮬레이션 서비스를 제공합니다.

현재 아키텍처 안전성을 점검하고 싶다면 하단의 문의하기를 통해 연락 주세요. 오늘도 긴 글 읽어주셔서 감사합니다!

참고 자료

https://aws.amazon.com/ko/message/101

https://www.theguardian.com/technology/2025/oct/20/amazon-web-services-aws-outage-hits-dozens-websites-apps

https://www.reuters.com/business/retail-consumer/amazons-cloud-unit-reports-outage-several-websites-down-2025-10-20/

https://www.theverge.com/news/802486/aws-outage-alexa-fortnite-snapchat-offline

https://www.hindustantimes.com/world-news/us-news/aws-outage-how-much-can-amazon-web-services-failure-cost-shocking-figures-revealed-101760981540908.html