System-Robustheit – Physik als verlässliche Grundlage

Beitrag von Franz Hein 

Stichworte: Orchestrieren statt Steuern von außen, Transportanmeldung und -freigabe künftig nötig, Störungserkennung durch Betrachten von außen, Sicherheit ist oft nur eine Fiktion, Risikomanagement erfordert Achtsamkeit gerade auch bei geringem Risiko, Vorbereitung auf Überraschendes und sofortiges, umfassendes Handeln nötig.

Mein grundsätzlicher Ansatz für künftige Energiezellen und das dabei angewandte Orchestrieren vermeidet Befehle von außen völlig. Das erhöht entscheidend die Robustheit. Aber auch das hat immer noch Verbesserungsbedarf. Durch den ankommenden (nur orchestrierenden!) Informationsstrom darf es nicht zu einer völligen Desorientierung und dadurch ausgelöste Fehlhandlungen in den Energiezellen kommen. Aber es wird immer Angriffe geben.

Der wichtigste Satz in dem Artikel „Wie maschinelles Lernen zum Verhängnis wird“ ist dieser Satz: „Autonome Gegenmaßnahmen sind die Zukunft der IT-Sicherheit“. [Siehe auch den Beitrag Maschinelles Lernen als Waffe bzw. das Thema Künstliche Intelligenz]

Der obige Satz muss aber noch etwas ergänzt und umformuliert werden: Autonomes, nicht zentral koordiniertes oder auf singuläre Informationen beruhendes Verhalten und autonome Gegenmaßnahmen sind in Zukunft Grundlage einer ausreichenden System-Robustheit.

Gemäß der Geschichten von einem Baron von Münchhausen, der behauptete, dass er sich an seinen eigenen Haaren aus dem Sumpf gezogen hat, behaupte ich, dass es nicht möglich ist, dass ein IT-System durch reine IT-technischen Maßnahmen sich selbst schützen kann. Es braucht einen sicheren äußeren Fixpunkt, von dem aus das IT-System beobachtet werden kann. Von dort aus muss erkennend und schützend eingegriffen werden können. Der äußere Fixpunkt muss sich außerhalb des IT-Systems befinden und muss auf völlig andere Gesetzmäßigkeiten aufbauen. IT-System und äußerer Fixpunkt müssen disjunkt sein (also absolut nicht zusammenpassend oder aufeinander wirkend).

Ich erinnere mich an einem Vorfall in unserem Prozessleitsystem. Drei Jahre nach Inbetriebnahme des Prozessleitsystems kam ich morgens in die Warte und sah mehrere Meßwertschreiber, welche schon einige Zeit einen völlig geraden Strich zeichneten, obwohl zuvor das gewohnte stochastische „Zappeln“ der Messwerte gezeichnet worden war. Meine sofortige Schlussfolgerung war: Es kommen keine neuen Messwerte mehr an. Es muss eine Störung eingetreten sein. Die Schreiber zeichneten den Messwert, der als letzter vor der Störung eingegangen war. Der zeitliche Beginn des „Strichs“ war an mehreren Messwertschreibern exakt der gleiche und muss deshalb der Beginn der Störung gewesen sein.

In dem Prozessleitsystem kamen die Messwerte aus den Schaltanlagen nicht direkt, sondern über ein Doppelrechner-System des jeweiligen Informationsknotens in die Leitwarte. Mein Anruf an den Ort mit einen solchen Informationsknoten mit einer Messwert-Vorverarbeitung ergab durch Augenschein: Beide Rechner waren im Zustand „Stand-by“ und vertrauten in diesem Zustand, dass der jeweils andere Rechner im Zustand „Aktiv“ war, weil dieser ja „lief“. Damit war keine Notwendigkeit einer Umschaltung gegeben und da jeder im „Standby“-Betrieb war, wurden zur Leitzentrale von beiden Rechnern des Doppelrechnersystems keine Messwerte gesandt. Das Senden wäre Aufgabe des Rechners, der im Zustand „Aktiv“ hätte sein müssen. Es war aber keiner mehr in diesem Zustand, warum auch immer.

Ich war in diesem Fall der äußere Fixpunkt, der feststellte: Die angezeigten und mittels Messwertschreiber gezeichneten Werte müssen aufgrund der Physik sich ständig stochastisch „bewegen“. Also waren die gezeichneten Messwerte nicht mit der Physik vereinbar. Und die IT kann die Physik unter keinen Umständen beeinflussen. Die Physik des Stromnetzes, zusätzlich meine Beobachtung und Schlussfolgerungen waren der Schlüssel zum Erkennen eines Rechner-dead-locks in einem vorgelagerten Rechnersystem. Das Abschalten und Neustarten der beiden Rechner beseitigte unverzüglich den unzulässigen Betriebszustand. Im weiteren Betrieb und auch bei den anderen sieben Informationsknotenrechner trat dieser Fehler also nur einmal während der 18-jährigen Betriebszeit auf und in dem betroffenen Doppelrechnersystem nach dem Vorfall 15 Jahre lang nicht mehr. Die eigentliche Fehlerursache konnte nicht aufgedeckt werden. Es war ein einmaliger Fehler, allerdings ein gravierender. Es war ein stiller Systemtod, obwohl beide Rechner ja „in Betrieb“ waren.

Nachträglich betrachtet, hätten wir so etwas wie eine Totmann-Schaltung bei den Doppelrechner-Systemen so einbauen müssen, dass ein unzulässiger Systemzustand (beide Rechner im stand-by-modus, aber auch beide Rechner im aktiven Modus) zu einem Alarm hätte führen müssen. Dieser Alarm hätte dann aber mit einem unabhängigen System eine unabhängige Überwachungsstelle erreichen und zum Eingreifen bewegen müssen.

Zum Orchestrieren kommt noch eine Forderung hinzu: Jede Energiezelle muss sich bei ihrer energetischen Vernetzung hinsichtlich ihrer Bezugs- aber auch hinsichtlich ihrer Einspeiseleistung so verhalten, dass sich aus Gesamtsicht kein zu hoher Gleichzeitigkeitsfaktor bei einer beabsichtigten (auch bei einer unbeabsichtigten) Leistungsänderung ergibt, den die Netzregelung des Gesamtsystems nicht verkraften würde. Das kann nur durch ein Anfrage/Freigabe-Verfahren beherrscht werden. Die Anfrage wäre an die zugehörige Leitstelle zu richten. Von dort müsste die Freigabe (nach Möglichkeit automatisch) erfolgen. Dabei wäre es nützlich, eine Anfrage-Vorverarbeitung so zu konzipieren, dass ein Anfrage-„Integral“ die Summe der Anfragen ständig vorzeichengerecht bildet und mit einem Grenzwert vergleicht. Damit würde ein zu hoher Gleichzeitigkeitsfaktor durch viele kleine, aber gleichgerichteten Anfragen zu einem Stopp bei gewünschten Leistungsänderungen führen. Es muss zusätzlich auf eventuelle Zeitverzüge geachtet werden. Unbeabsichtigte Leistungsänderungen können zudem durchaus auch durch äußere Einflüsse bedingt sein (Wetter, Sonnensturm, Katastrophen, etc.). Das Thema „Robustheit“ ist also wirklich kein einfaches Thema.

Da die Gesamtsicht in der Leitzentrale auf einer Vielzahl von Einzelsichten aufbauen müsste (damit auch da keine Störung in das Gesamtsystem eindringen kann, weil viele Einzelsichten eigentlich nicht alle gemeinsam „versaut“ werden können) ist eine gewisse Robustheit gegeben. Aber auch da muss noch ein äußerer Fixpunkt da sein. Dafür würde sich die Messung der Frequenz in den Energiezellen und auch in der Leitzentrale anbieten. Diese Messwerte dürften sich nur relativ unwesentlich unterscheiden, da die Grundlage dafür ein durch ITMaßnahmen nicht zu beeinflussender physikalischen Prozess ist. Damit könnte eine vertrauenswürdige Kontrolle durch Vergleich der eigenen Sicht mit der von der Leitzentrale erzeugten und versandten Gesamtsicht ermöglicht werden. Die Frequenz des Wechselstroms in einem zusammengeschalteten Netz bekommt so eine weitere bedeutsame Rolle. Diese entscheidend wichtige Kenngröße eines Wechselstromsystems muss allerdings auf das Wirken der Momentanreserve in den drehenden Maschinenteilen im Zusammenhang mit dem Energieerhaltungssatz beruhen, damit die von störenden Einflüssen nicht beeinflussbare Physik den „Fixpunkt“ tatsächlich auch darstellt. Problematisch ist jedoch die Meinung, dass die physikalische Wirkung der Momentanreserve durch Algorithmen ersetzt werden kann.