Probleme mit der DE-CIX-Anbindung (behoben)

Oct 13, 2015 10:00:00 AM

Am Dienstag gab es in der Zeit von ca. 0:00 Uhr bis etwa 9:00 Uhr Problemen in unserer DE-CIX-Anbindung, die dazu geführt hat das einige unserer Kunden aus einzelnen Netzen nicht erreichbar waren. Die Probleme traten auf, nachdem wir einen neuen POP (Point of Presence) in Frankfurt am DE-CIX in Betrieb genommen haben. Die Ursache für die Probleme ist noch unklar. Die Probleme betrafen ausschließlich unserer DE-CIX-Anbindung, über die rund 20 Prozent unseres Traffics abgewickelt wird. Die Anbindungen an die Telekom, Level 3, Telia, den AMSIX und den BCIX waren nicht betroffen.

Was haben wir gemacht?


Wir haben in den vergangenen Wochen unsere Anbindung an den DE-CIX auf 20 GBit/s über zwei redundante Leitungen mit je 10 GBit/s ausgebaut und dazu einen neuen POP in Frankfurt errichtet, sowie das gesamte Equipment sowie die Anbindung getestet. Das umfasst einen von DE-CIX vorgeschriebenen Test des genutzten Ports. In dieser Zeit wurde der normalerweise über den DE-CIX abgewickelte Traffic über andere Teile unseres Netzes umgeroutet.

Im Rahmen eines Wartungsfensters in der Nacht zu Dienstag wurde die neue Anbindung dann stufenweise in Betrieb genommen. Dazu wurden im ersten Schritt nur die Routeannouncements zu fünf Test-Peers aktiviert und anschließend zum einen per Ping geprüft, ob die Ziele von SysEleven aus erreichbar sind. Darüber hinaus haben wir von außen die Erreichbarkeit unserer Server überpüft. Dazu nutzen wir das RIPE Atlas, dessen offizieller Partner und Sponsor wir sind. Dabei waren keine Fehler erkennbar.

Daher wurden im zweiten Schritt die Routeannouncements zu allen direkten DE-CIX-Peers aktiviert und erneut die Erreichbarkeit von innen und außen getestet. Auch hierbei waren keine Probleme ersichtlich. Im dritten Schritt wurden die Routeannouncements zu den DE-CIX-Routeservern aktiviert (und natürlich auch erneut von innen und außen getestet).

Parallel dazu lief die gesamte Zeit unsere übliche Netzüberwachung, wodurch erkennbar war, dass wie erwartet ein entsprechender Teil des Traffics über den DE-CIX abgewickelt wurde und Traffic über beide 10G-Leitungen zum DE-CIX floss. Entsprechend gingen wir von einer erfolgreichen Inbetriebnahme der neuen DE-CIX-Anbindung aus und haben per E-Mail unsere Kunden über den Abschluss der Wartungsarbeiten informiert.

Was ist schief gegangen?

Das war leider voreilig, denn wir haben offenbar einen entscheidenden Fehler übersehen: Nach der Inbetriebnahme kam es nach aktuellem Kenntnisstand zu MTU-Fehlern (Maximum Transmission Unit) auf einer der beiden Leitungen von Berlin nach Frankfurt. Einige Pakete wurden nicht korrekt transportiert, andere schon. Dadurch waren unsere Tests erfolgreich. Im normalen Betrieb kam es aber zu Problemen, die dazu geführt haben, dass es immer wieder zu Verbindungsabbrüchen kam und Websites unserer Kunden aus einigen Netzen nicht richtig erreichbar waren.

Derzeit ist noch unklar, wie es zu diesen Fehlern kommen konnte. Die zugehörigen MTU-Einstellungen beider Leitungen und der dahinter liegenden Router sind identisch und korrekt konfiguriert. Auch der DE-CIX und der leitungszubringende Carrier prüfen die Probleme derzeit.

Was wir tun, um so etwas in Zukunft zu verhindern?

Fehler, wie wir ihn hier hatten, sollten nicht passieren, passieren aber. Umso wichtiger ist, dass wir diese in unserem Monitoring sofort erkennen. Wir überwachen zwar die Funktion aller Verbindungen, aber die Überwachung der einzelnen Interfaces unserer Router war – das steht schon jetzt fest – nicht ausreichend. Das werden wir umgehend ändern, um auf Fehler schneller reagieren zu können.

Derzeit bleibt die DE-CIX-Anbindung deaktiviert, der Traffic wird über andere Verbindungen geleitet. Um den Fehler einzugrenzen, werden wir einzelne Netzsegmente, in denen keine Kundensysteme laufen, wieder aktivieren.

Eine erweiterte Analyse des Fehlers, seiner Ursachen und der Prozesse, die bei uns nicht ausreichend gut funktioniert haben, steht noch aus. In jedem Fall möchten wir uns bei unseren Kunden für die Unannehmlichkeiten entschuldigen. Sobald weitere Erkenntnisse vorliegen, werden wir diese hier nachreichen.

Nachtrag vom 14. Oktober 2015, 15:55 Uhr:

Mittlerweile konnten wir die Fehlerursache eingrenzen: Die MTU-Werte auf den Interfaces für die Verbindung zwischen Berlin und Frankfurt waren für den MPLS-Transport, wie wir ihn nutzen, zu niedrig. Zugleich aber gab es einen Fehler in den automatisch generierten Firewall-Regeln, so dass auf einer von zwei Verbindungen nach Frankfurt keine MPLS-Verbindung aufgebaut werden konnte.

Dieses Zusammenspiel führte letztendlich dazu, dass Traffic auf einer Verbindung erfolgreich ohne MPLS weitergeleitet wurde, da hier die Firewall den Aufbau der MPLS/RSVP-Sessions verhinderte, während auf der anderen Verbindung mit korrekter Firewall-Regel und funktionierendem MPLS Datenpakete teilweise wegen einer zu kleinen MTU verworfen wurden.

Wir haben bereits damit begonnen unser Monitoring, vor allem von Punkten außerhalb unseres eigenen Netzes, anzupassen, um solche und ähnliche Fehler in Zukunft schneller erkennen zu können. Darüber hinaus werden wir unseren Prozess zur Aktivierung neuer Router überarbeiten, um entsprechende Fehlkofigurationen künftig auszuschließen. Weitere Maßnahmen werden noch geprüft. Es ist geplant, die Router in Frankfurt und damit verbunden unsere Ports am DE-CIX Frankfurt in einem weiteren Wartungsfenster in Betrieb zu nehmen. Über den genauen Zeitplan werden wir wie gewohnt per E-Mail informieren.

Nachtrag vom 27. Oktober 2015, 17:00 Uhr:

Wir haben unsere neue DE-CIX-Anbindung heute ohne weitere Probleme in Betrieb genommen. Unser Netz ist dadurch nun mit  20 GBit/s auf zwei redundanten Leitungen mit jeweils 10 GBit/s an den DE-CIX angebunden.

You May Also Like

These Stories on Verschiedenes

Subscribe by Email

No Comments Yet

Let us know what you think