ELIXR: Auf dem Weg zu einem universellen Röntgen-KI-System durch die Ausrichtung von großen Sprachmodellen und radiologischen Bildkodierern
ELIXR: Towards a general purpose X-ray artificial intelligence system through alignment of large language models and radiology vision encoders
August 2, 2023
Autoren: Shawn Xu, Lin Yang, Christopher Kelly, Marcin Sieniek, Timo Kohlberger, Martin Ma, Wei-Hung Weng, Attila Kiraly, Sahar Kazemzadeh, Zakkai Melamed, Jungyeon Park, Patricia Strachan, Yun Liu, Chuck Lau, Preeti Singh, Christina Chen, Mozziyar Etemadi, Sreenivasa Raju Kalidindi, Yossi Matias, Katherine Chou, Greg S. Corrado, Shravya Shetty, Daniel Tse, Shruthi Prabhakara, Daniel Golden, Rory Pilgrim, Krish Eswaran, Andrew Sellergren
cs.AI
Zusammenfassung
Unser Ansatz, den wir Embeddings for Language/Image-aligned X-Rays (ELIXR) nennen, nutzt einen sprachausgerichteten Bildencoder, der mit einem festen Large Language Model (LLM), PaLM 2, kombiniert oder darauf aufgesetzt wird, um eine Vielzahl von Aufgaben zu bewältigen. Wir trainieren diese leichtgewichtige Adapter-Architektur mit Bildern, die mit entsprechenden Freitext-Radiologieberichten aus dem MIMIC-CXR-Datensatz gepaart sind. ELIXR erzielte state-of-the-art Leistungen bei der Zero-Shot-Klassifikation von Thorax-Röntgenbildern (CXR) (mittlere AUC von 0,850 über 13 Befunde), dateneffizienter CXR-Klassifikation (mittlere AUCs von 0,893 und 0,898 über fünf Befunde (Atelektase, Kardiomegalie, Konsolidierung, Pleuraerguss und Lungenödem) für 1 % (~2.200 Bilder) und 10 % (~22.000 Bilder) Trainingsdaten) und semantischer Suche (0,76 normalisierter diskontierter kumulativer Gewinn (NDCG) über neunzehn Abfragen, einschließlich perfekter Retrieval-Ergebnisse bei zwölf davon). Im Vergleich zu bestehenden dateneffizienten Methoden, einschließlich Supervised Contrastive Learning (SupCon), benötigte ELIXR zwei Größenordnungen weniger Daten, um eine ähnliche Leistung zu erreichen. ELIXR zeigte auch vielversprechende Ergebnisse bei CXR-Vision-Language-Aufgaben, mit Gesamtgenauigkeiten von 58,7 % und 62,5 % bei visuellen Frage-Antwort-Aufgaben und Berichtsqualitätssicherungsaufgaben. Diese Ergebnisse deuten darauf hin, dass ELIXR ein robuster und vielseitiger Ansatz für KI in der CXR-Analyse ist.
English
Our approach, which we call Embeddings for Language/Image-aligned X-Rays, or
ELIXR, leverages a language-aligned image encoder combined or grafted onto a
fixed LLM, PaLM 2, to perform a broad range of tasks. We train this lightweight
adapter architecture using images paired with corresponding free-text radiology
reports from the MIMIC-CXR dataset. ELIXR achieved state-of-the-art performance
on zero-shot chest X-ray (CXR) classification (mean AUC of 0.850 across 13
findings), data-efficient CXR classification (mean AUCs of 0.893 and 0.898
across five findings (atelectasis, cardiomegaly, consolidation, pleural
effusion, and pulmonary edema) for 1% (~2,200 images) and 10% (~22,000 images)
training data), and semantic search (0.76 normalized discounted cumulative gain
(NDCG) across nineteen queries, including perfect retrieval on twelve of them).
Compared to existing data-efficient methods including supervised contrastive
learning (SupCon), ELIXR required two orders of magnitude less data to reach
similar performance. ELIXR also showed promise on CXR vision-language tasks,
demonstrating overall accuracies of 58.7% and 62.5% on visual question
answering and report quality assurance tasks, respectively. These results
suggest that ELIXR is a robust and versatile approach to CXR AI.