KI in der Realität: Warum Modelle nicht funktionieren, wie sie sollten

Data leakage ist eine Herausforderung, die die Künstliche Intelligenz bereithält. Mit einem praxisnahen Leitfaden gehen Prof. Dr. Dominik Grimm und Prof. Dr. Markus List dieses Problem an.
Künstliche Intelligenz (KI) eröffnet eine Vielzahl von Möglichkeiten, bringt jedoch auch Herausforderungen mit sich, wie das Phänomen des „Data Leakage“, bei dem es zu einem unerwünschten Austausch von Informationen zwischen Trainings- und Testdaten kommt. Prof. Dr. Dominik Grimm und Prof. Dr. Markus List (TUM) haben gemeinsam mit Forschenden der FAU-Erlangen, des Helmholtz Instituts für Pharmazeutische Forschung Saarland und der Universität des Saarlandes einen Leitfaden entwickelt, um das Problem des Data Leakages anzugehen. Der Leitfaden hat das Ziel, ein Bewusstsein für diese Herausforderungen zu schaffen und die interdisziplinäre Zusammenarbeit zu fördern.
Die KI hat zwar bedeutende Fortschritte im maschinellen Lernen ermöglicht, doch gibt es oft eine Diskrepanz zwischen wissenschaftlichen Ergebnissen und deren praktischer Anwendung, wie Prof. Dr. Grimm in einem gemeinsamen Interview mit Prof. Dr. List betont.* Dies kann zu Problemen wie mangelnder Reproduzierbarkeit und versteckten Abhängigkeiten in den Daten führen, was die Validität der Modelle gefährdet.
Versteckte Abhängigkeiten in Forschungsdaten
In ihrer Forschung haben Prof. Dr. Grimm und Prof. Dr. List insbesondere die Problematik der sogenannten „versteckten Abhängigkeiten“ beobachtet. Diese entstehen, wenn Daten aus einer einzigen Studie ohne Überprüfung ihrer Anwendbarkeit in anderen Kontexten verwendet werden. Prof. Dr. Grimm betont die Notwendigkeit, ein Bewusstsein für dieses Problem zu entwickeln und die Daten sowie Anwendungsfälle besser zu verstehen, um Abhängigkeiten frühzeitig zu erkennen. Es ist entscheidend, die passenden Daten auszuwählen und robuste Modelle zu entwickeln, die keine Verzerrungen aufweisen. Prof. Dr. Grimm veranschaulicht dies am Beispiel des medizinischen Bereichs: In Forschungsdatenbanken werden über viele Jahre hinweg Daten gespeichert und erneut verwendet. Treten Fehler auf, können sie sich in späteren Studien fortsetzen. Dies könnte letztlich die ärztliche Behandlung beeinflussen und im schlimmsten Fall die Sicherheit von Patient:innen gefährden. Forschende müssen die Komplexität der Daten verstehen und klar definieren, welche Fragen die Modelle beantworten sollen, um deren Nutzen optimal zu nutzen, bilanziert Prof. Dr. Grimm.
*Das Interview kann hier nachgelesen werden.