Sicherheit und Zuverlässigkeit technischer Systeme
Autor: Dipl.-Inform. A. Reutlinger
Ottobrunn, September 1987
Ausgangssituation
Gesundheit und körperliche Unversehrtheit sind naturgegebene Bedürfnisse des Menschen, ebenso wie z.B. das Bedürfnis nach Komfort und Mobilität. Hierbei entstehen Konflikte, da zur Befriedigung der Bedürfnisse oftmals komplexe technische Systeme erforderlich sind, die durch ihren Betrieb oder durch gelegentliches Fehlverhalten die Gesundheit und körperliche Unversehrtheit von Menschen oder Sachwerte gefährden. Die Sicherheit technischer Systeme ist nicht nur ein technisches Problem, sondern auch ein psychisches Bedürfnis des Menschen, dem sowohl die Konstrukteure und Anbieter, als auch die Betreiber Rechnung tragen müssen.
Nicht nur die Tatsache, daß ein System sicher ist, sondern auch das Wissen darüber, ist eine Bedingung zur sozialen Akzeptanz! - Es ist fast überflüssig, die Diskussionen um die Kerntechnik dafür als Beispiel anzuführen.
Die Sicherheitstechnik ist durch die Entwicklung neuartiger Systeme und neuartiger Technologien laufenden Veränderungen unterworfen. Zudem ist sie durch ihre übergreifende Bedeutung kein selbständiges und homogenes Fachgebiet, sondern abhängig von den Betrachtungsweisen und dem technologischen Stand der jeweils betroffenen Fachgebiete. Dies alles führt zwar zu einem riesigen Angebot an Schriften zur Sicherheitstechnik, aber auch zu einer diffusen Begriffsbildung und ebensolchem Wissensstand.
In diesem Aufsatz wird zum einen der Versuch gemacht, einen kleinen Überblick zur Sicherheitsproblematik zu geben und dabei die Begriffsbildung etwas zu systematisieren, zum andern wird auf einen speziellen Aspekt der Sicherheitstechnik eingegangen. Das Ziel ist nicht eine detaillierte Lösung vorzustellen, sondern Anregungen für Sicherheitsstrategien zu geben. Es bleibt dem Leser überlassen, die Thesen mit seinem Wissenstand zu vergleichen und zu bewerten.
Unsichere Systeme
Ursachen für die Unsicherheit technischer Systeme sind Ungleichgewichte innerhalb des Systems oder zur Systemumgebung, hervorgerufen z.B. durch
- Energiedifferenzen: Druck, Temperatur, Geschwindigkeit
- Konzentrationsdiff. in Gasen und Flüssigkeiten
- Potentialdiff.: Gravitation, elektr. u. magn. Felder
Der unbeabsichtigte oder unkontrollierte Ausgleich dieser Ungleichgewichte als Folge von Fehlern im System kann Schäden in verschiedener Form und Schwere verursachen. Der Ausgleich tritt z.B. auf in Form von
- Kollisionen, Aufprall auf Hindernisse
- Verbrennungen
- Stromschlag
- Vergiftung/Verstrahlung
- Druckausgleich, Strömungen
- Explosionen, Implosionen.
Definition:
Ein System ist potentiell unsicher, wenn aufgrund seines Betriebes Energie-, Konzentrations-, Potential- oder andere Differenzen entstehen, die bei unbeabsichtigtem oder unkontrolliertem Ausgleich zu Schäden führen können.
Die Schäden sind im wesentlichen abhängig von den o.g. Differenzen und der für deren Ausgleich verfügbaren Zeit (bzw. Abstand). Der Quotient aus beiden Größen ist daher ein Maß für die potentielle Unsicherheit eines Systems. Die Folgen des Ausgleichs, also die konkrete Form und Schwere der Schäden hängt darüber hinaus von der "Robustheit" des Systems bzw. der Systemumgebung ab und kann in der Regel nur empirisch vorhergesagt werden. Das Risiko oder Gefährdungspotential, d.h. der auf eine Person bezogene Schaden, multipliziert mit der Anzahl der betroffenen Personen, bestimmt die minimalen Anforderungen an die Sicherheit des Systems. Das Nutzen-Kosten-Verhältnis dagegen bestimmt den maximal tragbaren Aufwand zur Gewährleistung der Sicherheit.
Wenn man den fehlerfreien Betrieb als sicher und zuverlässig annimmt, dann kommen ausschließlich Fehler als Ursachen für Unsicherheit und Unfälle in Betracht. Die Annahme ist begründet, wenn die Konstruktion des Systems mindestens eine Methode zum kontrollierten Potentialausgleich beinhaltet.
Fehler treten auf in Form von Fehlerursachen, Fehlerwirkungen und Fehlerfolgen. Es ist Aufgabe des Konstrukteurs und des Betreibers Fehler zu vermeiden und aufgetretene Fehler sowie dadurch verursachte Schäden zu beheben.
Fehlerursachen sind:
- Konstruktions- und Fertigungsfehler,
- Verschleiß von Hardware,
- Störungen von außen,
- Bedienfehler,
- Anwendungs- und Betriebsfehler (z.B. Überbeanspruchung).
Fehlerwirkungen sind:
- Ausfall bzw. Stillstand des Gesamtsystems,
- Ausfälle von Bauteilen und Systemkomponenten,
- Fehlverhalten von Systemkomponenten oder Gesamtsystem,
- Abweichungen vom geplanten Systemzustand.
Fehlerfolgen sind:
- Sachschäden
. systemfremde Schäden
. systemeigene Schäden
- Personenschäden
. mit Verletzungen (behebbar, Dauerschäden)
. mit Todesfolge
- dispositive Schäden
. Verlust von Arbeitszeit oder Freizeit
. Wertverlust
. Sozialverlust (z.B. Verlust von Berechtigungen)
. Mehrkosten für Vorhaltung und Einsatz von Reserven
. Mehraufwand an Betriebsmitteln (Energie,Rohstoffe)
. Unbequemlichkeiten und Ärger für Betroffene
. Folgefehler.
Fehlerfolgen mit Sach- oder Personenschäden gelten als Unfall.
Forderungen an technische Systeme:
SICHERHEIT ist der Ausschluß von Sach- und Personenschäden.
ZUVERLÄSSIGKEIT ist zusätzlich der Ausschluß von dispositiven Schäden, also der Ausschluß von Fehlerfolgen.
FEHLERTOLERANZ ist der Ausschluß von Fehlerwirkungen.
Der Ausschluß von Fehlerursachen ist praktisch unmöglich und begründet die Forderung nach Sicherheit und Zuverlässigkeit eines technischen Systems!
Fehlertoleranz ist damit die schärfste aller Forderungen! Sie ist zwar anzustreben, aber praktisch kaum voll erfüllbar.
Daraus folgend ist Sicherheit die häufigste Forderung an ein System. Sie ist aber fast nie ideal zu erfüllen, sondern nur mit einer gewissen Wahrscheinlichkeit, da die Zusammenhänge zwischen Fehlerwirkung und Fehlerfolge häufig von sehr vielen und schwierig zu erfassenden Faktoren abhängen. Deshalb auch gibt es für den Ausschluß von Personenschäden allein keinen eigenständigen Begriff.
Ein System ist absolut sicher, wenn für jede mögliche Fehlerwirkung gilt:
1. jeder auftretende Fehler ist sofort erkennbar oder wird angezeigt.
2. wenn kein Fehler erkannt oder angezeigt wird, dann ist auch kein Fehler eingetreten.
3. jeder angezeigte Fehler ist identifizierbar und behebbar, bevor er zu einem Unfall führt.
4. Jeder identifizierte Fehler wird sofort behoben.
Oder wenn gilt:
5. es gibt keinen Fehler, der zu einem Unfall führt.
Ein Sicherheitsnachweis für ein System muß im Idealfall genau die obigen Aussagen beweisen. Die Methodik dazu ist abhängig vom konkreten System.
Zuverlässigkeit bedeutet Sicherheit und zusätzlich die Vermeidung von dispositiven Schäden, die durch den Betrieb des Systems entstehen können. Ein Maß für die Zuverlässigkeit ist deshalb der voraussichtliche Schaden, der durch die Unzuverlässigkeit des Systems entstehen kann. D.h. ein absolut zuverlässiges System verursacht keinerlei Schäden. Der Schaden berechnet sich aus der Schadenshöhe und der Schadenshäufigkeit im Betriebszeitraum. Zu berücksichtigen sind alle drei o.g. Schadenskategorien. Bei dispositiven Schäden kann die quantitative Bewertung der Schäden schwierig sein. Die klassischen Zuverlässigkeitsgrößen, wie Ausfallrate, Lebensdauer, MTBF usw., sind lediglich Hilfsgrößen zur Berechnung der voraussichtlichen Schäden.
Der Aufwand, der zur Gewährleistung von Zuverlässigkeit notwendig ist, muß sich demnach an der voraussichtlichen Unzuverlässigkeit ausrichten: er muß geringer sein als der zu erwartende Schaden. Andererseits muß er so groß sein wie es notwendig ist, um den Schaden einschließlich der betriebsnotwendigen Kosten geringer zu halten als den Nutzen des Systems.
Für die Zuverlässigkeit gelten folgende Gleichungen:
Gesamtschaden = Schadenshäufigkeit * Schadenshöhe
oder
Gesamtschaden = mittl. Schadensrate * Betriebszeit * Sch.höhe
Schadenskosten = Kosten für Vermeidung + Behebung
Gesamtkosten = Beschaffungs-k. + Betriebs-k. + Schadens-k.
Nettonutzen = Gesamtnutzen - (Beschaffungs-k. + Betriebs-k.)
Daraus erwachsen die Forderungen:
Gesamtkosten < Gesamtnutzen
Schadenskosten < Nettonutzen
Vermeidungskosten < Behebungskosten
Zur Erfüllung der Forderungen sind Fehlerabwehrmaßnahmen notwendig.
Fehlerabwehrmaßnahmen:
Die Vermeidung von Fehlern ist eine grundsätzliche Forderung, die vor dem Eintreten eines Fehlers zu erfüllen ist. Dazu ist die Kenntnis der Abhängigkeiten zwischen Fehlerursachen, Fehlerwirkungen und Fehlerfolgen notwendig. Verfahren dazu sind z.B. Fehlerbaumanalysen und FMEA (Fehlermöglichkeiten und -einfluß-Analyse) bzw. FMECA (Failure Mode Effects and Criticality Analysis). Dabei wird versucht, sowohl konstruktionsbedingte als auch prozeßbedingte Fehlerursachen bereits in der Konstruktionsphase zu erkennen und zu vermeiden.
Vermeidung der Fehlerursachen
Fehlerursachen liegen zum Teil außerhalb des Systems und können daher vom Betreiber des Systems nicht in jedem Fall vermieden werden. Einzelne Ursachen und Maßnahmen zu ihrer Vermeidung sind:
- Konstruktions- und Fertigungsfehler
. sorgfältige Konstruktion mit bewährten Mitteln/Methoden
. sorgfältige Tests, Erprobungen, Simulationen
. Qualitätsprüfungen während und nach der Fertigung
. FMEA/FMECA
- Verschleiß (Hardware)
. routinemäßige, rechtzeitige Wartung und Überprüfung
. Verwendung von Bauteilen hoher Qualität
. Verwendung von Bauteilen höherer Leistung
- Störungen von außen
. Schutz, Abschirmung gegen Zutritt, Beeinflussung usw.
- Bedienfehler
. leicht verständliche Bedienungsweise
. Ausbildung und Qualifizierung der Bediener
. körperliche und geistige Gesundheit der Bediener(!)
. Zutrittsbeschränkung für andere Personen
. Bedienungssperren wenn keine Bedienung erforderlich
- Anwendungs- und Betriebsfehler
. Erstellung einer Betriebsanleitung durch den Konstrukteur
. Einhaltung der Betriebsanleitung durch den Betreiber
. Gesetze und Vorschriften zum Betrieb des Systems
. organisatorische Maßnahmen
. sorgfältige Einsatzplanung
Vermeidung der Fehlerwirkung (Fehlertoleranz)
- Erkennung und Beseitigung der Fehlerursachen
- Hardware-Redundanz zur Ersetzung fehlerhafter Komponenten
- Leistungs- und Kapazitäts-Redundanz (Reserven)
- Warn- und Alarmmeldungen
- organisatorische (dispositive) Maßnahmen
Vermeidung von Fehlerfolgen (Sicherheit u. Zuverlässigkeit)
- Erkennung und Identifizierung von Fehlerwirkungen
- Fehlerbehebung
- Leistungsreduktion, Abschalten (graceful degradation)
- Fail-Safe-Verhalten
- Warn- und Alarmmaßnahmen
- Verhaltensregeln für Personen in Fehlersituationen
- Maßnahmen zur Schadensbegrenzung (passive Sicherheit)
- Aktivierung von Redundanzen/Reserven
Die Behebung von Fehlern ist erst nach Eintreten eines Fehlers durchzuführen und setzt die Erkennung und Identifizierung der Fehlerwirkungen bzw. der Fehlerfolgen voraus.
Behebung der Fehlerwirkung (Fehlerbehebung):
- Reparatur oder Austausch fehlerhafter Bauteile
- Aktivierung von Leistungs- und Kapazitätsreserven
Behebung der Fehlerfolgen (Schadensbehebung):
- Reparatur oder Schadensersatz bei Sachschäden
- Therapie bei Gesundheitsschäden
- Schadensausgleich oder -ersatz bei dispositiven Schäden
(auch Hinterbliebenenversorgung!)
Maßnahmen zur Verbesserung der Sicherheit und Zuverlässigkeit:
gegenwärtige Maßnahmen mit Vor- (+) und Nachteilen (-):
Hardware-Redundanz: m-aus-n-Systeme, Mehrheitsentscheider
+ erhöht die Verfügbarkeit der Hardware
+ ermöglicht Soft-Fail-Verhalten
+ verbessert die Erkennung von Fehlern
- hoher Aufwand
- keine Fehleridentifizierung
Software-Redundanz: SW-Diversität
+ verbessert die Erkennung von SW-Fehlern
+ erhöht die Verfügbarkeit der Hardware
- keine Garantie für Sicherheit
- hoher Aufwand
- geringere Zuverlässigkeit
- keine Fehleridentifizierung
- Zuwachs an Fehlern
Fail-Safe-Verhalten
+ hohes Maß an Sicherheit
+ geringer zusätzlicher Aufwand
- nicht in jedem Fall möglich (z.B. Luft-/Raumfahrt)
- verursacht dispositive Schäden (geringe Zuverlässigkeit)
Zukünftige Maßnahmen:
Die kräftige Reduzierung der Kosten für Computerhardware in den letzten Jahren ermöglicht einen verstärkten Einsatz von Rechnerleistung für Sicherheitsaufgaben. Dabei kommt es darauf an, die Rechnerleistung sinnvoll einzusetzen, um sowohl die Sicherheit als auch die Zuverlässigkeit zu verbessern ohne dadurch die Leistung eines Systems zu vermindern.
Das Ziel ist, Fehlerwirkungen und Fehlerfolgen zu vermeiden, indem durch "Redundanz der Intelligenz" die Erkennung und Identifizierung von Fehlerursachen und Fehlerwirkungen ermöglicht wird.
In einem Automatisierungssystem beispielsweise ist unabhängig vom Hauptrechner ein - oder eventuell mehrere - Rechner einzusetzen zur
- Überwachung des Sicherheitszustandes im System,
- Prüfung von Plausibilitäten gemessener oder berechneter Größen,
- Prüfung von Bedieneingriffen
- Berechnung von Vorhersagen für Steuer-/Regelgrößen,
- Überprüfung des Hauptrechners auf Funktionsfähigkeit,
- Ausgabe von Warn- und Alarmmeldungen,
- Protokollierung des Prozessablaufs
und
- Durchführung von Notmaßnahmen.
Dadurch wird der Hauptrechner von diesen zusätzlichen Aufgaben entlastet und kann ggf. kleiner dimensioniert werden, um Kosten zu sparen, oder kann zur Optimierung der Steuerung genutzt werden. Daneben wird dadurch ein Soft-Fail-Verhalten ermöglicht, das zur Verbesserung der Verfügbarkeit führt.
Beispiel aus der Verkehrstechnik:
Die Automatisierung schienengebundener Verkehrssysteme erfordert die laufende Standort- und Geschwindigkeitsüberwachung der Züge. Dazu werden Standort und Geschwindigkeit periodisch gemessen. Beide Größen stehen über die Zeit zueinander in Beziehung, so daß eine Größe aus der anderen auch berechnet werden kann. Dadurch entsteht eine Redundanz, die zur Plausibilitätsprüfung der Meßwerte genutzt werden kann, indem aus einer der beiden Größen und der (hoch zuverlässig!) gemessenen Zeit die jeweils andere Größe berechnet und mit dem gemessenen Wert verglichen wird. Dadurch daß ein Schienensystem seine Bewegung im Normalfall nicht plötzlich, sondern nur kontinuierlich ändert, können die Werte vorausberechnet und mit den dann gemessenen Größen ebenfalls wieder verglichen werden.
__________________________________________