There was a problem loading the comments.

Störung Datenspeicher Datacenter Berlin

Support Portal  »  Announcements  »  Viewing Article

  Print

16.05.2023 13:00 - Initiale Störungsmeldung

Aktuell liegt eine Störung an einem Datenspeicher im Datacenter Berlin vor. An der Behebung der Störung wird bereits gearbeitet.
Sobald neue Informationen vorliegen, werden diese hier veröffentlicht.

16.05.2023 15:10 - Update: Störung auf ein Storagesystem eingegrenzt

Die aktuelle Störung betrifft ein einzelnes Storage-System und die darauf beheimateten Server einiger Kunden. Unsere Mitarbeiter sind gemeinsam mit unserem Support-Dienstleister für dieses System bei der Analyse des Problems und prüfen verschiedene Wiederherstellungsmöglichkeiten.

Alle anderen Dienste sind wie gewohnt verfügbar. Die Netzwerkinfrastruktur ist nicht betroffen. Deren Servicestatus können Sie jederzeit öffentlich einsehen: https://go.managedhosting.de/status

16.05.2023 16:07 - Update: Storagesystem wiederhergestellt - Störung beendet

Das Storagesystem konnte erfolgreich wiederhergestellt werden. Die betroffenen VMs nehmen ihre Arbeit wieder auf und werden von uns proaktiv auf funktionsfähigkeit überpürft. Sollten Sie Probleme feststellen, informieren Sie uns bitte unter Angabe des jeweiligen Hosts über unser Helpdesk-Ticketsystem.

16.05.2023 16:18 - Update: Neustart bei einigen VMs notwendig

Bei den betroffenen VMs ist ein Neustart erforderlich, nachdem das Filesystem zu lange nicht zur Verfügung stand bzw. in den Read-only-Modus versetzt wurde. Wir kümmern uns in der Reihenfolge nach gewähltem SLA proaktiv um die notwendigen Maßnahmen.

16.05.2023 16:39 - Update: Ursachenanalyse und Nachbetrachtung in Arbeit

Nach erster Analyse wurde alles nach dem Stand der Technik mögliche getan, um einen solchen Ausfall zu verhindern. Es lag kein menschliches Versagen und kein strukturelles Problem vor. Auch bei einer vollständig redundant ausgelegten Infrastruktur ist auf lange Sicht eine kurze technische Störungen nicht komplett auszuschließen.

16.05.2023 17:43 - Update: Zwei DB-Cluster mit Folgeproblemen

Im Nachgang der Störung konnten alle betroffenen VMs geprüft und bei Bedarf neu gestartet werden, wenn sich dort die Dateisysteme infolge des fehlenden Storages im Read-only-Modus befanden. Bei Insgesamt 2 Datenbank-Clustern sind noch weitere Nacharbeiten notwendig. Wir arbeiten an der Problembehebung und stehen mit den betroffenen Kunden in Verbindung. Alle anderen Dienste stehen uneingeschränkt zur Verfügung.

16.05.2023 18:36 - Update: Alle Störungstickets abgeschlossen

In der Zwischenzeit konnten alle Systeme wieder in den Normalbetrieb überführt und alle Störungstickets abgearbeitet werden.

25.05.2023 14:58 - Update: Auswertung und Nachbetrachtung

Die Analyse des zeitlichen Ablaufs der Störung zeigt, dass die beiden redundant ausgelegten Nodes des betroffenen Speichersystems innerhalb weniger Minuten nacheinander ausgefallen sind.

Unmittelbar nach der Alarmierung durch das interne Monitoring-System haben die zuständigen Mitarbeiter mit der Problemanalyse begonnen und den für diesen Fall vertraglich gebundenen Servicepartner für das betroffene Gerät hinzugezogen.

Solche Serviceverträge existieren bei managedhosting.de für alle produktionswichtigen Speichersysteme. Sie sichern im Falle einer Störung unmittelbare, zusätzliche technische Unterstützung durch Experten für das jeweilige System und die Ersatzteilversorgung innerhalb weniger Stunden ab.

Nach ausführlicher Analyse konnte die Funktionsfähigkeit des Speichersystems zeitnah und ohne Datenverluste wiederhergestellt werden.

Eine gleichzeitige Störung beider redundanter Systeme ist extrem unwahrscheinlich, lässt sich jedoch nicht ausschließen. Die letzte Störung vergleichbarer Art bei managedhosting.de datiert in den März des Jahres 2015, also über 8 Jahre zurück.

Lessons Learned aus Sicht des Providers

Es waren bereits bei Einführung des Systems alle denkbaren und angemessenen technischen Vorkehrungen getroffen worden, um einen Ausfall des Gesamtsystems so unwahrscheinlich wie möglich zu gestalten. Es können keine weiteren angemessenen Maßnahmen ergriffen werden, um die Eintrittswahrscheinlichkeit eines solchen Ereignisses zu verringern.

Die Auswirkungen konnten zeitlich begrenzt werden. Die Wiederherstellung gelang ohne Datenverlust. Durch Segmentierung und Dezentralisierung sind immer nur wenige Arbeitslasten von einer Störung an einem Speichersystem betroffen.

Die im SLA vereinbarten Reaktions- und Wiederherherstellungszeiten konnten eingehalten werden. Die für die Bearbeitung von Störungen vorgesehen Prozessen waren effektiv.

Lessons Learned aus Sicht unserer Kunden

Mit der Nutzung unserer Cloud-Lösungen wird die Eintrittswahrscheinlichkeit für das Risiko des Ausfalls eines Speichersystems effektiv minimiert. Trotzdem bleibt das Speichersystem aus Sicht der Applikation unseres Kunden ein Single-Point-of-Failure, auch wenn das darunterliegende System redundant ausgelegt ist.

Je nach Einsatzzweck muss daher im Risikomanagementprozess unserer Kunden geprüft werden, ob das Restrisiko eines Ausfalls akzeptiert werden kann. Ist das aufgrund hoher Anforderungen an die Verfügbarkeit eines bestimmten Dienstes nicht tolerabel, so muss der Single-Point-of-Failure auf Applikationsebene ausgeschlossen werden.

Wir bieten an allen Datacenter-Standorten mehrere physisch voneinander getrennte Speichersysteme an, die von unseren Kunden genutzt werden können, um Clusterlösungen zu schaffen, die ihre Arbeitslasten auf mindestens zwei unabhängige Speichersysteme verteilen.


Share via

Related Articles

© managedhosting.de