Von Mensch zu Maschine: So verändert KI das Testen
.jpeg)
Warum das Testen von KI-Systemen anders ist – und was das für uns bedeutet
Die Entwicklung und der Einsatz von KI-basierten Systemen zählen zweifellos zu den wichtigsten Trends der modernen IT-Welt. Während sich Softwareentwickler:innen, Data Analyst:innen und Projektmanager:innen neuen Herausforderungen stellen müssen, taucht für Softwaretester:innen eine zentrale Frage auf: Müssen wir uns an die von KI geprägte Realität anpassen? Die kurze Antwort lautet: Ja.
Grundlegende Testprinzipien, Aktivitäten und Standards, die beim Testen klassischer Software gelten, bleiben zwar relevant, müssen jedoch um Aspekte erweitert werden, die spezifisch für KI-Systeme sind.
Besondere Herausforderungen von KI-Systemen für Tester:innen
Systemspezifikation als Grundlage
Alles beginnt mit der Systemspezifikation, der formalen Beschreibung dessen, was ein System leisten soll. Sie bildet die Testbasis, also das Fundament für Testplanung, Testanalyse und die Erstellung von Testfällen. Sie umfasst alle Dokumente und Artefakte, aus denen Testbedingungen und Testfälle abgeleitet werden. Je klarer die Systemspezifikation ist, desto besser lassen sich Testfälle ableiten, Testabdeckung sicherstellen und die Testergebnisse nachvollziehen.
Für KI-basierte Systeme ist eine detaillierte Spezifikation jedoch eine Herausforderung. Faktoren wie unklare Anforderungen, Testorakelprobleme, spezielle Qualitätsmerkmale von KI-Systemen und die Fähigkeiten menschlicher Nutzer:innen erschweren die Erstellung.
In vielen Projekten werden Anforderungen oft nur als Vorhersagen oder in Form hoher Geschäftsziele formuliert. Das ist ganz anders als bei der klassischen Softwareentwicklung, bei der die benötigte Logik von Anfang an klar spezifiziert ist. Wie bei konventioneller Software ist es auch bei KI-basierten Systemen optimal, die Anforderungen vor der Entwicklung präzise zu formulieren. So erhalten Tester:innen eine verlässliche Grundlage für messbare Testfälle.
Testorakelproblem
Ein Testorakel ist eine Referenz, anhand derer entschieden wird, ob ein Testergebnis korrekt oder fehlerhaft ist. Mit anderen Worten: Das Testorakel ermöglicht es Tester:innen einzuschätzen, was „richtig“ ist.
Bei nicht-deterministischen oder probabilistischen Systemen kann es jedoch schwierig sein, ein Testorakel festzulegen, ohne die „Ground Truth“ zu kennen.
Wenn das tatsächliche Ergebnis aus der realen Welt unbekannt ist, lässt sich das Testergebnis nicht eindeutig als richtig oder falsch interpretieren. Manchmal werden die gewünschten Abnahmekriterien erst nach unabhängigen Tests klar. In solchen Fällen kann es notwendig sein, für Qualitätsanforderungen wie die Vorhersagegenauigkeit statt eines konkreten Werts mögliche Grenzwerte festzulegen.
Qualitätsmerkmale von KI-Systemen
Derzeit gibt es noch zu wenige Erfahrungswerte, um diese Qualitätsmerkmale eindeutig, nachvollziehbar und messbar zu beschreiben.
Zu den wichtigsten KI-spezifische Qualitätsmerkmalen zählen gemäß ISO/IEC TR 29119-11 unter anderem:
- Flexibilität: Ein System arbeitet auch außerhalb seiner ursprünglichen Spezifikation korrekt, ohne vorheriges Lernen. Ein Beispiel hierfür ist ein Chatbot, der korrekt auf veränderte Eingaben, Daten und Nutzungsszenarien reagieren kann.
- Anpassbarkeit: Das System lässt sich leicht für neue Situationen modifizieren. Ein Chatbot beispielsweise verbessert sein Verhalten mit der Zeit, indem er aus Daten und Feedback lernt.
- Autonomie: Das System arbeitet über längere Zeiträume ohne menschliches Eingreifen, z. B. bei autonomem Fahren oder Empfehlungssystemen oder Betrugserkennung.
- Transparenz: Die Struktur des Systems und die verwendeten Daten sind nachvollziehbar. Die wichtigste Frage ist „Wie ist das System aufgebaut?“. Es sollte bekannt sein, dass das System auf vordefinierten Regeln basiert.
- Interpretierbarkeit: Nutzer:innen verstehen, wie Eingaben in Ausgaben überführt werden. Beim Testen der Interpretierbarkeit soll die wichtigste Frage „Kann ich das Modell selbst nachvollziehen?“ beantwortet werden.
- Erklärbarkeit: Es muss nachvollziehbar sein, wie das KI-basierte System zu einem bestimmten Ergebnis gekommen ist. Das ist besonders bei Entscheidungen mit großer Tragweite wichtig, z. B. bei medizinischen Diagnosen.
- Verzerrung (Bias): Ungleichbehandlung bestimmter Gruppen durch Trainingsdaten oder Designentscheidungen. Es wurden beispielsweise Fälle dokumentiert, in denen die Recruiting-KI männliche Bewerber bevorzugte, da die historischen Einstellungsdaten überwiegend Männer zeigten. Verzerrungen (Bias) können zu unfairen Entscheidungen, rechtlichen Risiken oder Vertrauensverlust führen. Daher sollten die Testaktivitäten der frühzeitigen Erkennung von Verzerrungen (Bias) dienen.
Menschliche Fähigkeiten als Testherausforderung
Wenn KI-Systeme Aufgaben übernehmen, die bisher von Menschen erledigt wurden, entstehen häufig unklare Verhaltensanforderungen. Selbst bei klarer Aufgabenstellung können die Fähigkeiten der Menschen, die ersetzt werden, stark variieren. Dies kann das Testorakelproblem verschärfen.
Ein Beispiel: Bei der Anforderung „Das System soll abnormale Zellen in Proben genauso gut wie ein Laborant:in erkennen“ muss spezifiziert werden, um welche Art von Laborant:innen es sich handelt, da mikrobiologische, zellbiologische oder biochemische Laborant:innen unterschiedliche Tätigkeitsbereiche haben.
Hinzu kommt der Automatisierungsbias: Menschen vertrauen Entscheidungen von KI-Systemen häufig blind, ohne die Ergebnisse kritisch zu hinterfragen.
Ansätze für das Testen von KI-Systemen
Auch wenn Projektkontexte stark variieren und es keine universellen Lösungen gibt, können einige Ansätze das Testen nachvollziehbarer machen:
- Theoretische Grundlagen beachten: ISO/IEC TR 29119-11 erweitert den bestehenden ISO/IEC-29119-Teststandard um KI-spezifische Konzepte.
- Dokumentation transparent und nachvollziehbar organisieren.
- Geeignete Testtechniken und -methoden nutzen: z.B. gegnerische Angriffe, metamorphes Testen, paarweises Testen oder erfahrungsbasiertes Testen. Diese Techniken erlauben auch ein Black-Box Vorgehen, wenn die Tester:innen wenig Erfahrung mit KI-basierten Systemen haben.
- Alle Qualitätsmerkmale abdecken. Für jede einzelne muss die Testabdeckung gewährleistet sein.
- Wahrscheinlichkeitsbasierte Ergebnisse akzeptieren: Bei KI gibt es oft kein eindeutiges „richtig“ oder „falsch“.
- Datenqualität prüfen: Die Qualität des Systems hängt von den Daten ab. Daher müssen Daten ebenso wie die Funktionalität getestet werden.
Wer KI-Systeme testen will, muss akzeptieren, dass es kein einmaliges Vorgehen gibt. Nur konsequente Gewohnheiten, fundierte Methoden und kritisches Hinterfragen sorgen langfristig für Qualität.
Aristoteles bringt es auf den Punkt:
„Qualität entsteht nicht durch einen einzelnen Akt, sondern durch Gewohnheit.“ (nach Aristoteles)

