Ein Team aus Transregio-Forschenden der Universität Bielefeld und der LMU München hat ein neues Open-Source-Tool entwickelt: shapiq. Die Software erweitert bestehende Methoden der erklärbaren KI, indem sie nicht nur den Einfluss einzelner Merkmale, sondern auch deren gemeinsame Wechselwirkungen analysiert. Damit können komplexe Modelle wie neuronale Netze oder Entscheidungsbäume transparent gemacht werden – ein bedeutender Schritt für Vertrauen, Fairness und Optimierung in der Künstlichen Intelligenz. Maximilian Muschalik und Fabian Fumagalli stellen die Ergebnisse jetzt auf der Konferenz Neural Information Processing Systems (NeurIPS) 2024 vor.
Moderne Künstliche Intelligenz (KI) stützt sich auf Modelle, die oft als „Black-Boxen“ bezeichnet werden – ihre Entscheidungen sind für Nutzer*innen schwer nachvollziehbar. In sensiblen Bereichen wie Medizin, Finanzen oder autonomem Fahren ist es jedoch entscheidend zu verstehen, wie ein Modell zu seinen Ergebnissen kommt. Hier kommen die Shapley-Werte ins Spiel, eine Methode aus der Spieltheorie, die den Beitrag einzelner Merkmale misst.
Das Problem: Viele Entscheidungen werden nicht nur durch einzelne Merkmale, sondern durch deren Wechselwirkungen beeinflusst. Zum Beispiel können Merkmale wie „Breitengrad“ und „Längengrad“ nur gemeinsam eine genaue Ortsbestimmung ermöglichen. Um diese Komplexität zu erfassen, verwendet das Team Shapley-Interaktionen – eine Erweiterung der klassischen Shapley-Werte. „Shapley Interactions erlauben es uns, über die rein isolierte Betrachtung von Merkmalen hinauszugehen und komplexe Zusammenhänge besser zu verstehen“, erklärt Maximilian Muschalik, Hauptautor des Projekts. „Mit shapiq liefern wir nicht nur einen Beitrag zur Grundlagenforschung, sondern schaffen auch eine praktische Lösung für Anwender*innen.“ Fabian Fumagalli, Autor und Experte auf diesem Gebiet, erklärt weiter: „Die Berechnung der Shapley Interactions ist ein aufwändiges Problem, für das spezielle Algorithmen erforderlich sind, die wir nun vorgestellt haben.“
Das Werkzeug: shapiq
Das Python-Paket shapiq wurde speziell dafür entwickelt, die Forschung und Anwendung von Shapley-Werten und -Interaktionen zu vereinheitlichen und zu vereinfachen. Zu den zentralen Funktionen gehören:
- Effiziente Berechnung: Trotz der hohen theoretischen Komplexität von Shapley Interactions bietet shapiq Algorithmen, die eine effiziente Berechnung ermöglichen – selbst bei großen Datensätzen und komplexen Modellen.
- Visualisierung: Die Ergebnisse können anschaulich dargestellt werden, sodass auch Nicht-Expert*innen die Wechselwirkungen intuitiv verstehen können.
- Benchmarking: Das Tool umfasst eine umfassende Benchmark-Suite mit elf realen Anwendungsfällen, die es Forscher*innen ermöglicht, die Leistung neuer Algorithmen systematisch zu bewerten.
- Flexibilität: Von Entscheidungsbäumen (wie XGBoost) über neuronale Netzwerke bis hin zu modernen Sprachmodellen – shapiq ist für alle Modelltypen geeignet.
Das Werkzeug ist nicht nur ein Fortschritt für die Forschung, sondern bietet auch Praktiker*innen ein Instrument, um Modelle verständlicher zu machen und deren Anwendung sicherer zu gestalten.
Präsentation auf der NeurIPS-Konferenz
Die Ergebnisse des Projekts werden auf der NeurIPS 2024 vorgestellt. Interessierte können sich dort oder über das GitHub-Repository über die Anwendung und Möglichkeiten des Werkzeugs informieren. Dort finden Interessent*innen auch eine umfangreiche Dokumentation sowie Beispiele für den praktischen Einsatz.
Open Source Entwicklung
Interessierte Nutzer*innen können die Forschung des Transregio-Teams direkt unterstützen, indem sie das GitHub-Repository mit einem Stern markieren oder das Team über Verbesserungsvorschläge direkt informieren. Da die Software Open Source entwickelt wird können sich interessierte Anwender*innen auch direkt in die Implementierung einbringen.