Pożar w centrum danych T-Mobile na warszawskim Annopolu: przyczyny i skutki

31 stycznia 2019 roku w godzinach porannych (zgłoszenie wpłynęło około godziny 8:20) doszło do poważnego pożaru hal magazynowych przy ul. Annopol w Warszawie. Ogień, który objął wielką halę magazynującą m.in. artykuły spożywcze i poligraficzne, dotknął również zlokalizowane tam budynki należące do sieci T-Mobile Polska. W akcji gaśniczej brało udział 160 strażaków i 50 samochodów gaśniczych; na szczęście żaden z pracowników nie ucierpiał.

Zdjęcie z akcji gaśniczej na warszawskim Annopolu przedstawiające działania straży pożarnej wokół zniszczonych hal magazynowych

Wpływ zdarzenia na funkcjonowanie sieci

W wyniku incydentu infrastruktura sieciowa oraz systemy niezbędne do świadczenia wielu usług zostały poważnie naruszone. Operator poinformował, że w konsekwencji pożaru niemożliwy był kontakt z call center, a dostęp do wielu usług był utrudniony. Kłopoty dotknęły nie tylko klientów indywidualnych, ale także instytucje - m.in. w niektórych placówkach Poczty Polskiej nie można było nadać paczek ani wykonać płatności.

Mimo krytycznych warunków, w jakich znalazła się infrastruktura, operator podjął próbę przeniesienia znaczącej części systemów do zapasowego centrum danych. Początkowo T-Mobile ogłosił, że w ciągu niespełna 12 godzin udało się przywrócić pełną sprawność usług mobilnych, jednak rzeczywista sytuacja okazała się bardziej złożona.

Problemy z przywróceniem pełnej funkcjonalności

Oficjalne komunikaty operatora dotyczące przywrócenia usług były interpretowane przez media i klientów z pewną dozą sceptyku. Choć 4 lutego 2019 r. wydano komunikat o przywróceniu „niemal” wszystkich usług, w praktyce użytkownicy zgłaszali:

  • Problemy z dzwonieniem i wysyłaniem SMS-ów (i MMS-ów).
  • Brak możliwości doładowania konta.
  • Niedostępność aplikacji „Mój T-Mobile” oraz internetowego biura obsługi MiBOA.
  • Problemy z działaniem usług Heyah.

Proces przenoszenia numerów został w pełni przywrócony dopiero 7 lutego.

Wykres przedstawiający harmonogram przywracania usług telekomunikacyjnych po awarii w lutym 2019 roku

Kontrowersje wokół bezpieczeństwa infrastruktury

Incydent wywołał dyskusję na temat profesjonalizmu zarządzania ciągłością działania (Business Continuity Plan - BCP) oraz planami odtwarzania po awarii (Disaster Recovery Plan - DRP). Eksperci i media zwracali uwagę na kilka kluczowych aspektów:

Lokalizacja centrum danych

Krytyce poddano samą lokalizację obiektu w sąsiedztwie magazynów z materiałami łatwopalnymi. Standardy branżowe wskazują, że data center powinno znajdować się w miejscu bezpiecznym, z dala od dużych obiektów przemysłowych, lotnisk czy magazynów z niebezpiecznymi artykułami.

Zabezpieczenia techniczne

Wątpliwości budziła również konstrukcja budynku oraz systemy przeciwpożarowe. W profesjonalnych serwerowniach stosuje się m.in. ściany ze zbrojonego betonu oraz systemy gaszenia specjalnym gazem, które odcinają dopływ tlenu, nie uszkadzając przy tym sprzętu. W przypadku Annopola, mimo aktywacji systemów gaśniczych, przerwy w dostawach energii i konieczność ewakuacji spowodowały wyłączenie kluczowych systemów.

Schemat przedstawiający wzorcowe zabezpieczenia techniczne w nowoczesnym data center (ściany ogniotrwałe, systemy gazowe, redundancja)

Wnioski dla rynku telekomunikacyjnego

Eksperci podkreślają, że awaria T-Mobile unaoczniła problem, z którym boryka się wiele firm w Polsce. Według danych firmy Veeam, aż 60% organizacji w Polsce nie przeprowadza regularnych testów swoich polityk ochrony przed zagrożeniami. Wskazuje się, że posiadanie „lustrzanej” infrastruktury w innej lokalizacji, z ciągłą synchronizacją danych, pozwala na uniknięcie odczuwalnych dla klientów przerw, nawet w obliczu katastrofy głównej serwerowni.

tags: #kiedy #t #mobile #mial #pozar