Die Crux des Trainingsdatensatzes

Künstliche Intelligenz in der Medizin: damit kommt die nächste medizinische Revolution, wie es die Erfindung der Bildgebungsverfahren auch einmal war. Experten sind sich da ziemlich sicher. Die Vision steht. Der Weg zur Revolution ist noch steinig und schwer. Heute: Das Beispiel Trainingsdaten.

Um eine gute KI-Anwendung zu trainieren, braucht es sehr gute Trainingsdaten. Je nach gewähltem Verfahren braucht es dafür tausende Bilddaten, die zudem medizinisch korrekt ausgezeichnet sein müssen. Heute entsteht zu einem medizinischen Bild in der Regel ein Befund, also ein vom Mediziner erzeugter Text, ein sogenannter Freitext, also etwas das beschreibt in diesem Bild sehe ich zu dieser Fragestellung nix oder eben doch etwas. Das kann irgendwie formuliert sein, vielleicht gibt es einen persönlichen oder Abteilungsinternen Standard für bestimmte Formulierungen, aber schon in der nächsten Einrichtung kann dies ganz anders sein. Um nun einen Trainingsdatensatz zu erstellen, muss diese Information in sogenannte Labels für die Bilddaten umgewandelt werden. Da es eine Vielzahl an Anbietern gibt, die Bildbefundungssysteme anbieten (PACS) ist auch hier kein wirklicher Standard vorhanden. Das Datenaustauschformat ist heute der DICOM-Standard, in dem solches Wissen stecken kann, die Informationen werden aber aus dem Befund, der meist in einem anderen System (RIS) erstellt wird, oft nicht in die Bilddaten des PACS übertragen und wenn doch, dann nicht in alle Bilder oder Serien die zu diesem Patienten übertragen wurden.

Für die Ersteller von Trainingsdatensätzen ist das misslich, aber es gibt Abhilfe. Mit Textanalysemechanismen, fancy mit KI, ansonsten auch klassisch mit Mustererkennung und hartcodierten Regeln, werden die Befunde ausgewertet und die Bilddaten mit entsprechenden Labels ausgestattet. Doch bei dieser Art der Trainingsdatenerstellung entstehen Fehler, die ein zuverlässiges Trainieren von Algorithmen erschweren.

Der Radiologe befundet solche Bilder immer mit einer spezifischen Fragestellung. Dabei kann nicht davon ausgegangen werden, dass er gezielt alle in einem Bild enthaltenen Befunde a) sieht und b) aufschreibt. Immer wieder werden weitere Befunde nicht erwähnt, da sie mit der ursprünglichen Fragestellung nichts zu tun haben oder auch einfach als nicht relevant eingestuft werden.

Eine Röntgenthoraxaufnahme (engl. Chest X-Ray) kann zur Befundung von bis zu 80 Krankheitsbildern genutzt werden. Wenn ich also einen großen Bilddatensatz mit Chest X-Ray Aufnahmen habe, wie er jüngst von der Stanford Universität veröffentlicht wurde, dann sind dort Bilder enthalten

  • die nur den Befund A enthalten und mit A gelabelt sind
  • die den Befund A und B enthalten, aber nur mit A gelabelt sind
  • die den Befund A und B enthalten, aber nur mit B gelabelt sind
  • die den Befund A, B und C enthalten, aber nur mir A und B gelabelt sind
  • usw.

Es sind die vielfältigsten Kombinationen denkbar und alle sind sehr wahrscheinlich in der einen oder anderen Form im Datensatz enthalten.

Trainiert man nun einen Algorithmus mit diesen Daten auf das Auffinden von den Befunden A, B und C, dann würden einige Bild/Label Paare die KI in eine falsche Richtung führen, da sie die KI trainieren, dass kein Befund enthalten ist, obwohl der Befund tatsächlich zu sehen ist, er wurde nur einfach nicht als Label aufgeschrieben.

Noch schwieriger sind Bilder die gleich als „ohne Befund“ oder mit der Phrase „Keine Veränderung zu vorher“ befundet wurden: Befunde werden heute geschrieben, um zwischen Ärzten über ein Bild zu kommunizieren und wichtige Informationen zu benennen. Befunde beschreiben nicht das Bild an sich, mit all seinen Facetten, sondern nur einen Teil, der zur Fragestellung passt oder als wichtig gesehen wird. Und: Befunde werden im Akkord geschrieben, am Ende einer langen Schicht, nach der man lieber schon zu Hause wäre, wenn man vielleicht schon müde ist. Die beiden Phrasen bedeuten also nicht, dass in dem Bild ein Normalzustand für alle möglichen Krankheitsbilder zu sehen ist, wie es eine KI aber annehmen würde.

Bei Deep Learning, dem Verfahren, bei dem man einen Algorithmus mit sehr vielen, meist hunderttausenden von Daten trainieren möchte, wird durch die heute übliche Dokumentationspraxis, also immer auch mit einem großen Prozentsatz an Bild-Label-Paaren trainiert, die fehlerhaft sind. So wäre diese Technik heute an sich geeignet, die nächste medizinische Revolution in der Bildbefundung zu begründen, wenn dafür nicht schlicht qualitativ hochwertige Trainingsdatenmassen fehlen würden. Unter Laborbedingungen gelingen allerdings auch mitsolchen Datensätzen interessante Ergebnisse, ob diese auch mit live-Daten aus dem normalen medizinischen Betrieb erreicht werden können, muss meist noch bewiesen werden.

Schreib einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.