Jörn Steinhauer, alphasystems

Künstliche Intelligenz: „Ist eine Dokumentation sinnvoll?“

B4B-Leser fragen, unsere Branchenexperten aus der Region antworten: „Ist es sinnvoll, bei Systemen wie KI, die sich selbst entwickeln, eine Dokumentation anzulegen? Wenn ja: Wie geht das und wer kann das? ?“ Das weiß Jörn Steinhauer, unser Experte für Prozessdigitalisierung.

Eine Dokumentation ist gerade bei KI Systemen wichtig und unerlässlich. Betrachtet man es ganz pragmatisch, hat ein KI System im Prinzip drei wesentliche Komponenten:

  • Der Algorithmus, der definiert, was aus den Daten ermittelt werden soll.
  • Der Programmcode, der diesen Algorithmus umsetzt.
  • Die Daten, die vom Algorithmus verarbeitet werden.

Jede dieser drei Komponenten sollte natürlich dokumentiert werden. Wie sieht der Algorithmus aus? Welche Basisüberlegungen sind vorhanden? Welche Datenquellen werden ausgewertet? Welche mathematischen Konstrukte liegen dahinter? Wie sieht die „Selbstentwicklung“ aus?

Programmcode und Testergebnisse dokumentieren

Der Programmcode ist natürlich auch zu dokumentieren, sowohl in der Code-Dokumentation als auch in einem entsprechenden ergänzenden Dokument. Im Falle einer Selbstentwicklung von Code kann man auch Routinen für eine automatische Dokumentation etablieren, die dann entsprechend nachgearbeitet werden können.

Bei den Daten kann man zwar nicht die Daten als solche „dokumentieren“, aber natürlich die Struktur, die Herkunft, und die entsprechenden Referenzdaten, mit denen der Algorithmus angelernt wurde. Zudem sollten natürlich alle Testergebnisse als solches sauber dokumentiert werden, denn das Vertrauen in die KI wird – wie das Vertrauen in Menschen – nicht durch unbedingte Nachvollziehbarkeit der Methoden erreicht, sondern durch sorgfältiges Testen, Lernen und Dokumentieren der Ergebnisse.

Generell muss man bei KI Systeme zwischen überwachten und nicht überwachten Lernvorgängen unterscheiden. Dies schlägt sich auch in der Art und in der Komplexität der Dokumentation nieder.

Überwachte Lernvorgänge

Bei überwachten Lernvorgängen muss der Algorithmus normalerweise eine konkrete Aufgabe erlernen. Diese wird dadurch erfüllt, dass eine Assoziation zwischen Daten und einem darauf basierenden Zustand erlernt werden muss. So kann der Algorithmus beispielsweise den Inhalt einer Email als Spam assoziieren, weil er bestimmte Merkmale in der Email erfasst, die als erwünscht oder unerwünscht klassifiziert werden. Bei dieser Methode muss die Kongruenz zwischen den vorherzusagenden Zuständen über Testdaten antrainiert werden. Dafür werden Referenzdaten verwendet, die alle Kombinationen dieses Zusammenhangs möglichst gut beschreiben. Die Testdaten enthalten die gewünschte Information, die der Algorithmus nach dem Training bei neuen Daten anwenden können soll. In diesem Fall kann man Algorithmus und die Trainingsdaten hervorragenden dokumentieren, um später mögliche Fehler im Analyseverhalten erkennen zu können.

Nicht überwachtes Lernen

Sollen Muster und Gemeinsamkeiten sowie informationstragende Strukturen neu gefunden werden, so spricht man von nicht überwachtem Lernen. Dabei werden Informationen verwendet, die nicht vorstrukturiert oder logisch gegliedert sind. Die Testdaten liefern die Basis, um bestehende Muster und Regeln zu ermitteln und aufzuzeigen, die bis dato noch nicht bekannt sind. Nicht überwachtes Lernen wird beispielsweise genutzt, um mögliche Segmente zu finden, in die Kunden oder Produkte eingeteilt werden können. In nicht überwachten Verfahren sind die Ergebnisse immer stark von der Art der Eigenschaften abhängig, die für die Musteranalyse gewählt werden. Hier ist die Dokumentation sicherlich schwieriger, aber dennoch natürlich genauso erforderlich. Gerade durch den „selbstentwickelnden“ Aspekt  bestehen hohe Anforderungen an die technischen und organisatorischen Maßnahmen und dabei insbesondere an die Transparenz der Datenverarbeitung. 

Transparenz sichern

In diesem Fall ist die Sicherung der Transparenz ein wichtiger Aspekt. Darunter versteht man im Wesentlichen die Prüfbarkeit einer Verarbeitungstätigkeit ( = Dokumentation). Gegenstand der Transparenz sind die funktionalen Eigenschaften sowie die technischen und organisatorischen Maßnahmen einer Verarbeitungstätigkeit. Zur Durchsetzung der Transparenz gehören neben vielen anderen Dokumenten vor allem die Dokumentation der  Spezifikationen, Algorithmen, Logs und Protokolldaten sowie insbesondere aktive Tests der KI-Systeme oder -Komponenten. Inkl. der hierbei zu erstellenden Prüfprotokolle. Gerade diese Prüfprotokolle, die auch regelmässig durchgeführt werden sollten, sind ein wichtiger Bestandteil der Dokumentation.

Sie haben Rückfragen an unseren Experten für Prozessdigitalisierung Jörn Steinhauer, oder wünschen eine tiefergehende Beratung? Dann nehmen Sie jetzt direkt Kontakt auf.

Weitere Artikel zum Gleichen Thema
Jörn Steinhauer, alphasystems

Künstliche Intelligenz: „Ist eine Dokumentation sinnvoll?“

B4B-Leser fragen, unsere Branchenexperten aus der Region antworten: „Ist es sinnvoll, bei Systemen wie KI, die sich selbst entwickeln, eine Dokumentation anzulegen? Wenn ja: Wie geht das und wer kann das? ?“ Das weiß Jörn Steinhauer, unser Experte für Prozessdigitalisierung.

Eine Dokumentation ist gerade bei KI Systemen wichtig und unerlässlich. Betrachtet man es ganz pragmatisch, hat ein KI System im Prinzip drei wesentliche Komponenten:

  • Der Algorithmus, der definiert, was aus den Daten ermittelt werden soll.
  • Der Programmcode, der diesen Algorithmus umsetzt.
  • Die Daten, die vom Algorithmus verarbeitet werden.

Jede dieser drei Komponenten sollte natürlich dokumentiert werden. Wie sieht der Algorithmus aus? Welche Basisüberlegungen sind vorhanden? Welche Datenquellen werden ausgewertet? Welche mathematischen Konstrukte liegen dahinter? Wie sieht die „Selbstentwicklung“ aus?

Programmcode und Testergebnisse dokumentieren

Der Programmcode ist natürlich auch zu dokumentieren, sowohl in der Code-Dokumentation als auch in einem entsprechenden ergänzenden Dokument. Im Falle einer Selbstentwicklung von Code kann man auch Routinen für eine automatische Dokumentation etablieren, die dann entsprechend nachgearbeitet werden können.

Bei den Daten kann man zwar nicht die Daten als solche „dokumentieren“, aber natürlich die Struktur, die Herkunft, und die entsprechenden Referenzdaten, mit denen der Algorithmus angelernt wurde. Zudem sollten natürlich alle Testergebnisse als solches sauber dokumentiert werden, denn das Vertrauen in die KI wird – wie das Vertrauen in Menschen – nicht durch unbedingte Nachvollziehbarkeit der Methoden erreicht, sondern durch sorgfältiges Testen, Lernen und Dokumentieren der Ergebnisse.

Generell muss man bei KI Systeme zwischen überwachten und nicht überwachten Lernvorgängen unterscheiden. Dies schlägt sich auch in der Art und in der Komplexität der Dokumentation nieder.

Überwachte Lernvorgänge

Bei überwachten Lernvorgängen muss der Algorithmus normalerweise eine konkrete Aufgabe erlernen. Diese wird dadurch erfüllt, dass eine Assoziation zwischen Daten und einem darauf basierenden Zustand erlernt werden muss. So kann der Algorithmus beispielsweise den Inhalt einer Email als Spam assoziieren, weil er bestimmte Merkmale in der Email erfasst, die als erwünscht oder unerwünscht klassifiziert werden. Bei dieser Methode muss die Kongruenz zwischen den vorherzusagenden Zuständen über Testdaten antrainiert werden. Dafür werden Referenzdaten verwendet, die alle Kombinationen dieses Zusammenhangs möglichst gut beschreiben. Die Testdaten enthalten die gewünschte Information, die der Algorithmus nach dem Training bei neuen Daten anwenden können soll. In diesem Fall kann man Algorithmus und die Trainingsdaten hervorragenden dokumentieren, um später mögliche Fehler im Analyseverhalten erkennen zu können.

Nicht überwachtes Lernen

Sollen Muster und Gemeinsamkeiten sowie informationstragende Strukturen neu gefunden werden, so spricht man von nicht überwachtem Lernen. Dabei werden Informationen verwendet, die nicht vorstrukturiert oder logisch gegliedert sind. Die Testdaten liefern die Basis, um bestehende Muster und Regeln zu ermitteln und aufzuzeigen, die bis dato noch nicht bekannt sind. Nicht überwachtes Lernen wird beispielsweise genutzt, um mögliche Segmente zu finden, in die Kunden oder Produkte eingeteilt werden können. In nicht überwachten Verfahren sind die Ergebnisse immer stark von der Art der Eigenschaften abhängig, die für die Musteranalyse gewählt werden. Hier ist die Dokumentation sicherlich schwieriger, aber dennoch natürlich genauso erforderlich. Gerade durch den „selbstentwickelnden“ Aspekt  bestehen hohe Anforderungen an die technischen und organisatorischen Maßnahmen und dabei insbesondere an die Transparenz der Datenverarbeitung. 

Transparenz sichern

In diesem Fall ist die Sicherung der Transparenz ein wichtiger Aspekt. Darunter versteht man im Wesentlichen die Prüfbarkeit einer Verarbeitungstätigkeit ( = Dokumentation). Gegenstand der Transparenz sind die funktionalen Eigenschaften sowie die technischen und organisatorischen Maßnahmen einer Verarbeitungstätigkeit. Zur Durchsetzung der Transparenz gehören neben vielen anderen Dokumenten vor allem die Dokumentation der  Spezifikationen, Algorithmen, Logs und Protokolldaten sowie insbesondere aktive Tests der KI-Systeme oder -Komponenten. Inkl. der hierbei zu erstellenden Prüfprotokolle. Gerade diese Prüfprotokolle, die auch regelmässig durchgeführt werden sollten, sind ein wichtiger Bestandteil der Dokumentation.

Sie haben Rückfragen an unseren Experten für Prozessdigitalisierung Jörn Steinhauer, oder wünschen eine tiefergehende Beratung? Dann nehmen Sie jetzt direkt Kontakt auf.

Weitere Artikel zum Gleichen Thema
nach oben