Corona & VPN-Services
Die aktuelle Lage um den Corona-Virus stellt auch die Ratiodata vor neue Herausforderungen. Durch die vielerorts getroffene Entscheidung unserer Kunden zur Arbeit im Homeoffice, beobachten wir einen nachvollziehbaren Anstieg in den Umgebungen des Remote Access Service (RAS). Dies sind jedoch nicht die einzigen Kapazitäten, die die Ratiodata bei den weiteren Maßnahmen zur Aufrechterhaltung des Arbeitsbetriebes Beachtung schenken muss. In diesem Text beleuchten wir die von uns getroffenen Maßnahmen genauer und geben Einblick in die durch die Pandemie verursachte Datenlage. Die daraus resultierenden kurz- und mittelfristigen Schritte werden ebenfalls erläutert und mit den vor uns liegenden Herausforderungen abgeglichen. Wir informieren Sie wöchentlich über die Gesamtentwicklung: Die Updates finden Sie immer am Anfang dieses Dokuments.
Update vom 5. April 2020
Für die vergangene Woche hatten wir aufgrund höherer Nutzerzahlen und beginnender Softwareverteilung auch während des Tages mit einem um rd. 10% steigenden Datenvolumen gerechnet. Die Nutzerzahlen sind tatsächlich weiter gestiegen und es waren im Durchschnitt mehr als 20.000 Nutzer*innen auf der Plattform gleichzeitig aktiv (also weniger als erwartet). Das dabei generierte Datenvolumen lag in der Spitze bei rd. 5 GBit/s (Out) bzw. knapp 3 GBit/s (IN) und damit innerhalb des erwarteten Rahmens. Die mit den Kunden abgestimmten Maßnahmen zur Begrenzung der Bandbreite für Software Updates haben dazu geführt, dass die Updates ohne Beeinträchtigungen für die Nutzer*innen erfolgen konnten.
Für die kommenden zwei Wochen erwarten wir aufgrund der Osterfeiertage eine zurückgehende Nutzung, so dass – wenn keine unvorhergesehenen Umstände eintreten – mit einer stabilen Plattformperformance zu rechnen ist.
Update vom 29. März 2020
Wie am 21. März bereits erwartet, sind die Nutzerzahlen in der vergangenen Woche nochmal deutlich in die Höhe gegangen. Mittlerweile arbeiten jeden Tag mehr als 19.000 Nutzer*innen über unsere beiden Remote Access Lösungen. Die durch die RAS Nutzung generierten Datenvolumen werden von unserer Infrastruktur nach den Anpassungen der letzten Wochen gut verkraftet und das Datenvolumen hat sich auf dem Wert den wir auf Basis der Werte von „Sabine“ erwartet haben stabilisiert. Je 4.000 Nutzer*innen können wir mit einem Datenvolumen von einem Gigabit/s rechnen, das unsere Systeme an die Nutzer*innen senden. In der Gegenrichtung, also von den im Homeoffice laufenden Systemen wird etwa halb soviel an Daten zu den Servern in den Unternehmen gesendet.
Die Grafik zur Internetkapazität zeigt die zu den Homeoffices gesendeten (OUT) bzw. von dort empfangenen Daten (IN). Man sieht, dass das größte Datenvolumen zu den Arbeitsplätzen morgens zwischen 07:00 und 09:00 Uhr gesendet wird, wenn sich der Großteil der Nutzer*innen an den Systemen anmeldet. Gegen Mittag sinkt das Datenvolumen deutlich ab, um dann gegen 14:00 Uhr anzusteigen und mit abnehmender Nutzeranzahl zurückzugehen.
In der Grafik lässt sich auch die anlaufende Softwareverteilung erkennen, mit lokalen Spitzenwerten vor allem außerhalb des Tagesgeschäfts (gegen 20:00 Uhr). Weitere Verteilungen werden – je nach dem von den Unternehmen genutzten Verfahren – künftig auch tagsüber erfolgen, jeweils unter Berücksichtigung der verfügbaren Kapazitäten.
In der kommenden Woche rechnen wir mit bis zu 2.000 weiteren Nutzer*innen, die im Homeoffice arbeiten werden. Dies, zusammen mit möglichen Lastspitzen der Softwareverteilung, wird unsere Infrastruktur in den nächsten Tagen in der Spitze um rd. 10% stärker auslasten. Wir werden die Entwicklung genau beobachten aber gehen davon aus, dass wir auch dieses zusätzliche Datenvolumen mit unseren Systemen bewältigen werden.
Update vom 21. März 2020
Nun liegt die erste Woche mit dem erwarteten steilen Anstieg der Homeoffice Nutzung hinter uns. Wie hat sich die Infrastruktur geschlagen, wie valide waren unsere Annahmen und welchen neuen Herausforderungen müssen wir uns stellen? Kurz gesagt – die Vorbereitungen der letzten Wochen zur Erweiterung der Kapazitäten waren notwendig und haben sich bewährt.
Die Grafik zeigt den Verlauf der RAS Nutzung seit dem 12.3.2020. Man erkennt deutlich die steigende Anzahl von RAS Nutzer*innen – in der Spitze waren am 19.3.2020 17.250 gleichzeitige Nutzer*innen auf den Systemen registriert.
Anfang der Woche war für uns die entscheidende Frage, wie sich das durch die zusätzliche RAS Nutzung generierte Datenvolumen entwickelt und ob die Infrastrukturen der Ratiodata in der Lage sein werden, dieses zusätzliche Volumen zu bewältigen.
Die Kapazitätsannahme von Anfang der Woche hat sich bestätigt: Unsere Kalkulationsbasis mit knapp 3.500 RAS Nutzer*innen je Gigabit Internetbandbreite ist valide und die Gesamtkapazität ausreichend dimensioniert, um den weiter erwarteten Zuwachs zu bewältigen. Hierzu wurde auch die Kapazität der Firewall Systeme zum Internet von 6 auf 8 GBit/s in der Nacht vom 17.3.2020 erhöht. Parallel wurde die Kapazität einzelner Firewalls zu Kundennetzen erweitert.
Ein weiterer Effekt hat unsere Personalkapazitäten in unerwarteter Stärke belastet. Viele Nutzer*innen haben in dieser Woche erstmals ihren Laptop im Homeoffice genutzt, was zu einer erheblichen Steigerung der Support Tickets geführt hat. Wir haben diese Anfragen priorisiert bearbeitet, um die Anwender*innen arbeitsfähig zu machen – die Entwicklung der Nutzerzahlen Anfang der Woche zeigt, dass dies in Summe gut gelungen ist. In gleichem Maße wie die Nutzerzahlen in die Höhe geschnellt sind, wurden auch IP Adressen aus den Kundennetzen in der RAS Infrastruktur genutzt. Vereinzelt kam es hier auch zu Situationen, in denen die Kapazität erschöpft waren – auch hier konnten wir die Engpässe sehr schnell beseitigen und die Arbeitsfähigkeit sicherstellen.
Nachdem nun ein großer Teil der Mitarbeiter*innen im Homeoffice arbeitet, stellt sich die Frage, wie die Systeme mit Softwareupdates (vor allem zur Behebung von Sicherheitslücken) versorgt werden können, ohne die Infrastruktur zu überlasten. Im Normalfall, im lokalen Netz der Unternehmen, steht ausreichend Kapazität zur Verfügung, diese Updates großflächig durchzuführen. Jetzt muss die Ausbringung von Datenpaketen die durchaus mehrere Gigabyte je PC betragen können deutlich intensiver geplant werden. Wir stehen in engem Kontakt mit den Verantwortlichen auf Kundenseite, um die Zeitplanung und Datenmengen auf die Kapazitäten der Plattform und den parallelen Bedürfnissen der einzelnen Unternehmen abzustimmen.
Wir sind zuversichtlich, dass die RAS Infrastruktur der Ratiodata auch die für kommende Woche erwarteten zusätzlichen Nutzerzahlen abdecken kann.
Vorkehrungen, Status & Ausblick
Corona und Pandemie – diese Worte rücken in erschreckendem Maße zunehmend in unser öffentliches Bewusstsein, seit am 1. Dezember 2019 ein bis dato unbekannter Erreger einen Patienten in Wuhan, China, infizierte. Seit Januar wurde die mit Corona verbundene Gefahr einer globalen Pandemie immer greifbarer.
Nunmehr, am 16. März 2020, haben wir die Situation, dass auch in Deutschland zunehmend Eindämmungsmaßnahmen in Kraft gesetzt werden und auch unsere Kunden ihre Pandemiepläne, die in den letzten Wochen immer wieder aktualisiert wurden, aktivieren.
Ein wesentliches Element dieser Pläne ist die großflächige Nutzung von Homeoffice für die Mitarbeiter*innen. Und an dieser Stelle kommt unserer Lösungen für die Remote-Anbindung (Remote Access Service) eine entscheidende Rolle zu.
Vorkehrungen & Status
Pandemieplanungen, obwohl schon immer Teil des Business Continuity Management, hatten in der Vergangenheit eine eher theoretische Bedeutung. Praktische Tests des Remote Arbeitens im großen Stil gab es in der Vergangenheit nicht unter einem Pandemie Aspekt, sondern erstmals 2012 im Rahmen der Blockupy Proteste in Frankfurt, bei denen größere Teile der Belegschaft von dort ansässigen Unternehmen auf Homeoffice ausgewichen sind. An den damals festgestellten Kapazitätsgrenzen der Umgebung wurde seither kontinuierlich gearbeitet. Dies führte letztendlich zu der Dimensionierung der Remote Access Infrastruktur wie sie am Vorabend der Corona Pandemie bestand.
Ratiodata betreibt derzeit zwei Remote Access Umgebungen mit insgesamt rd. 28.000 Nutzern aus der Genossenschaftlichen FinanzGruppe. Die Systeme werden in den Rechenzentren der Ratiodata in Frankfurt betrieben und sind über leistungsfähige Verbindungen zur Telekom, DECIX und NTT ans Internet angebunden.
Die Kapazität der Infrastruktur ist dabei von mehreren Faktoren begrenzt:
- Die Kapazität der RAS-Umgebung selbst und damit der Anzahl der gleichzeitig möglichen Verbindungen und der Verschlüsselungskapazität der Systeme
- Die Kapazität der Internetanbindung
- Die Kapazität der Firewall-Systeme
- Die Kapazität der Verbindungen aus der RAS-Umgebung in die Unternehmensnetze
Bevor die Pandemieplanungen Realität wurden, wurde die Remote-Access-Infrastruktur einem ungeplanten Leistungstest unterzogen. Am 09. und 10. Februar 2020 zog der Sturm Sabine über mit dem Effekt, dass viele Mitarbeiter*innen fortan aus dem Homeoffice gearbeitet haben.
Aber welche Auswirkungen hatte der Sturm Sabine auf die Nutzung der Remote Access Infrastruktur? Welche Rückschlüsse lassen sich auf das Verhalten der Umgebung im Pandemiefall ziehen? Und was wurde seither für zur Vorbereitung auf den Pandemiefall getan?
Kapazität der RAS-Umgebung
Die Diagramme für die Umgebungen zeigen die Entwicklung der RAS-Nutzung in den letzten zwölf Monaten mit den Durchschnittswerten gleichzeitiger Nutzer sowie dem Spitzenwert im jeweiligen Monat.
In den Diagrammen ist erkennbar, dass im Februar eine eher normale Durchschnittsnutzung zu verzeichnen war, allerdings mit einem hohen Spitzenwert von insgesamt 8.750 Nutzern auf beiden Plattformen – der Effekt von Sturm Sabine. In den beiden Märzwochen ist die Durchschnittsnutzung deutlich erhöht, aufgrund einer täglich steigenden Nutzungsrate und einem vorläufigen Spitzenwert von insgesamt 10.470 Nutzern am 13.03.2020, dem letzten in der Statistik erfassten Arbeitstag.
Die Daten zeigen, dass die Kapazitätsauslegung der Infrastruktur hinsichtlich der gleichzeigen Nutzer*innen (Tunnel-Lizenzen) mit 13.000 Lizenzen die betrieblich zu erwartenden Lastspitzen wie auch für Sonderfälle wie Sturm Sabine ausreichend dimensioniert sind. Mit sichtbar werden der kommenden Herausforderungen einer Pandemie ab Mitte Februar wurde deutlich, dass die Anzahl der Tunnel-Lizenzen evtl. nicht ausreichen wird, die steigenden Anforderungen abzudecken.
Aus diesem Grund hat die Ratiodata im Februar mit dem Hersteller NCP Kontakt aufgenommen und ein sogenanntes Pandemiepaket vereinbart. Hierdurch können wir die Anzahl der Tunnel-Lizenzen auf die maximale Nutzeranzahl (28.000) erhöhen – so lange wie notwendig. Dieses Pandemiepaket wurde mittlerweile aktiviert, so dass der potenzielle Engpass der gleichzeitigen Nutzung beseitigt ist.
Die Daten vom 10.02.2020 zeigen, dass wir eine Internet-Bandbreite von rund 1 GBit/s benötigen, um etwa 3.500 gleichzeitig aktive Nutzer *innen zu bedienen. Die neuen Nutzungsspitzen vom 13.03.2020 (10.400 Nutzer mit 2.800 Nutzer / GBit) und 16.03.2020 (13.400 Nutzer mit 4.000 Nutzer / GBit) zeigen, dass die durch die Nutzer*innen generierte Last nicht statisch ist, sondern nutzungsabhängigen Fluktuationen unterworfen ist. Für die weitere Kalkulation gehen wir von rund 3.500 Nutzer*innen aus, die wir mit einer Internet-Bandbreite von 1 GBit/s versorgen können.
Die Verschlüsselungsleistung der RAS-Umgebungen ist vor dem Hintergrund dieser Eckdaten mit insgesamt rund 12 GBit/s ausreichend dimensioniert, um die zu erwartende Vollauslastung der Plattform zu bewältigen. Nominell ist sie jedoch auf 6 Gbit/s ausgelegt um auch in einem Katastrophenfall, d.h. beispielsweise dem Ausfall eines Rechenzentrums, die Zielkapazität (6 GBit/s) aufrecht zu erhalten.
Zusammenfassend lässt sich für die Kapazitätsparameter der RAS-Plattform festhalten, dass die Infrastruktur zusammen mit den Maßnahmen zur Erhöhung der Tunnel-Lizenzen voraussichtlich ausreichende Kapazitäten für eine Vollauslastung aufweist. Wohlgemerkt, unter Nutzung der Infrastrukturen in beiden Rechenzentren – im Normalfall wird nur die hälftige Nutzung erwartet um auch im Katastrophenfall fähig zu sein.
Kapazität Internet Anbindung
Wenn also die RAS Plattform ausreichend dimensioniert scheint, wie sieht es mit der Internetanbindung aus? Zur Abschätzung der Kapazitäten muss man berücksichtigen über welche Internet-Provider die Nutzer*innen Zugang zur Plattform erhalten. Der Großteil der Nutzer*innen wird über Telekomanschlüsse verfügen und deshalb über unseren Telekom Internetzugang die Plattform erreichen. Vorläufige Hochrechnungen zeigen, dass dies für etwa 60% der Nutzer*innen der Fall ist. Die restlichen Nutzer*innen verteilen sich über die Zugänge von NTT (rd. 22%) und DECIX (rd. 18%).
In Erwartung der stark steigenden Nutzerzahlen haben wir Mitte Februar die Ausweitung der Kapazitäten in Angriff genommen und Anfang der zweiten Märzwoche die Anbindung der Internet-Provider Telekom (von 5 auf 10 GBit) und DECIX (von 1 auf 10 Gbit) erhöht. NTT war bereits mit 10 GBit angebunden und wird gemeinsam mit DECIX über 10 GBit Gesamtleistung der Plattform zugeführt.
Firewall Systeme & Verbindung in die Unternehmensnetze
Auch wenn die Plattform damit eine Gesamtkapazität von 20 GBit Internetbandbreite nutzen könnte, ist aber zu berücksichtigen, dass die notwendigen vorgelagerten Firewall-Systeme wie auch die Anbindung der Unternehmensnetze ebenfalls Kapazitätsgrenzen aufweisen. Diese Grenze liegt derzeit bei rd. 6 GBit/s und wird durch eine Anpassung der Firewall am in der Nacht zum 17.03.2020 auf 8 GBit/s erweitert. Unter Zugrundelegung der Kapazitätserwartung von 3.500 Nutzer/GBit gehen wir davon aus, rd. 28.000 gleichzeitige RAS Nutzer in Spitzenzeiten versorgen zu können – also eine Vollabdeckung.
Zusammenfassung
Wie die Darstellung zeigt, haben wir mit der rechtzeitigen Erweiterung von Tunnel-Lizenzen und der Erhöhung der Kapazität der Internetanbindung und der Anbindung der Plattform an die Unternehmensnetze die Basis geschaffen, das Arbeiten im Homeoffice in bisher nicht gesehenem Ausmaß zu ermöglichen.
Die RAS Umgebung als entscheidende technische Infrastruktur muss hierfür in den kommenden Wochen ständig verfügbar sein. Wir haben deshalb bereits Ende Februar über alle Systeme im Umfeld der RAS Umgebung eine sogenannte „Frozen-Zone“ etabliert und lassen Anpassungen dieser Umgebung nur noch unter verschärften Kontrollen zu.
Ausblick
In den kommenden Tagen werden alle Kunden die Homeoffice-Nutzung drastisch ausweiten und wir werden die Systeme voraussichtlich bis an ihre Kapazitätsgrenzen belasten. Dabei unterliegen die Infrastrukturen nicht nur Parametern die wir als Service Provider steuern können. Es bleibt zu beobachten, inwieweit die Leistungsfähigkeit der Internet-Infrastrukturen der Netzanbieter in der Lage sein werden, den erwarteten zusätzlichen Datenverkehr zu bewältigen.
Wir konnten letzte Woche erkennen, dass in Spitzenzeiten der Nutzungsanstieg bei den Anbindungen an NTT/DECIX geringer ausgeprägt ist als bei der Telekom-Anbindung. Dies könnte ein erstes Indiz dafür sein, dass Engpässe in den Providerübergängen im Internet den Datenverkehr ausbremsen, obwohl unsere eigenen Zugänge über ausreichende Kapazität verfügen. Ob dies tatsächlich der Fall ist, wird die Entwicklung der nächsten Tage zeigen.
Darüber hinaus ist zu vermuten, dass in verstärktem Maße mit Videokonferenzen aus dem Homeoffice gearbeitet wird. Damit wird zusätzlicher Bedarf an Internet-Bandbreite generiert, der derzeit nicht abzuschätzen ist und die für die Vorbereitung angestellten Kapazitätsbetrachtung in nicht einschätzbaren Maße verändern kann.
Weiterhin ist damit zu rechnen, dass die Hochlastsituation für die RAS-Umgebung über einen längeren Zeitraum bestehen wird. Wir müssen uns darauf vorbereiten, dass Ausfälle einzelner RAS-Systeme die Gesamtkapazität nicht zu sehr schmälern. Hier sind wir in der Beschaffung entsprechender zusätzlicher Hardware. Der Bereitstellungszeitpunkt kann allerdings aufgrund der sich verschlechternden Liefersituation noch nicht vorhergesagt werden.
Die nächste Woche wird zeigen, wie sich die Situation tatsächlich entwickelt, wir werden also in den nächsten Tagen weiterhin:
- Alle Kapazitätsparameter kontinuierlich überwachen.
- Beim Auftreten von Engpässen mit den Kunden in Kontakt treten, um Maßnahmen zu besprechen.
- Daran arbeiten die VPN-Zugangswege sukzessive zu erweitern.
- Über die Gesamtentwicklung voraussichtlich im Wochenturnus berichten.