CheXagent: Auf dem Weg zu einem Foundation-Modell für die Interpretation von Röntgenaufnahmen des Brustkorbs
CheXagent: Towards a Foundation Model for Chest X-Ray Interpretation
January 22, 2024
Autoren: Zhihong Chen, Maya Varma, Jean-Benoit Delbrouck, Magdalini Paschali, Louis Blankemeier, Dave Van Veen, Jeya Maria Jose Valanarasu, Alaa Youssef, Joseph Paul Cohen, Eduardo Pontes Reis, Emily B. Tsai, Andrew Johnston, Cameron Olsen, Tanishq Mathew Abraham, Sergios Gatidis, Akshay S. Chaudhari, Curtis Langlotz
cs.AI
Zusammenfassung
Röntgenaufnahmen des Brustkorbs (CXRs) sind die am häufigsten durchgeführte bildgebende Untersuchung in der klinischen Praxis. Jüngste Fortschritte in der Entwicklung von Vision-Language-Foundation-Modellen (FMs) eröffnen die Möglichkeit, eine automatisierte CXR-Interpretation durchzuführen, die Ärzte bei klinischen Entscheidungen unterstützen und die Patientenergebnisse verbessern kann. Die Entwicklung von FMs, die CXRs präzise interpretieren können, ist jedoch aufgrund der (1) begrenzten Verfügbarkeit groß angelegter Vision-Language-Datensätze im Bereich der medizinischen Bildgebung, (2) des Mangels an Vision- und Language-Encodern, die die Komplexität medizinischer Daten erfassen können, und (3) des Fehlens von Bewertungsrahmen zur Benchmarking der Fähigkeiten von FMs bei der CXR-Interpretation eine Herausforderung. In dieser Arbeit gehen wir auf diese Herausforderungen ein, indem wir zunächst CheXinstruct vorstellen – einen groß angelegten Instruction-Tuning-Datensatz, der aus 28 öffentlich verfügbaren Datensätzen zusammengestellt wurde. Anschließend präsentieren wir CheXagent – ein instruction-getuntes FM, das in der Lage ist, CXRs zu analysieren und zusammenzufassen. Um CheXagent zu entwickeln, entwerfen wir ein klinisches Large Language Model (LLM) zur Analyse von Radiologieberichten, einen Vision-Encoder zur Darstellung von CXR-Bildern und ein Netzwerk, das die Vision- und Language-Modalitäten verbindet. Schließlich führen wir CheXbench ein – einen neuartigen Benchmark, der entwickelt wurde, um FMs systematisch über 8 klinisch relevante CXR-Interpretationsaufgaben zu bewerten. Umfangreiche quantitative Bewertungen und qualitative Überprüfungen durch fünf erfahrene Radiologen zeigen, dass CheXagent zuvor entwickelte allgemeine und medizinische FMs bei den CheXbench-Aufgaben übertrifft. Darüber hinaus führen wir eine Fairness-Bewertung über die Faktoren Geschlecht, Rasse und Alter durch, um potenzielle Leistungsunterschiede aufzuzeigen und die Transparenz des Modells zu verbessern. Unser Projekt ist unter https://stanford-aimi.github.io/chexagent.html verfügbar.
English
Chest X-rays (CXRs) are the most frequently performed imaging test in
clinical practice. Recent advances in the development of vision-language
foundation models (FMs) give rise to the possibility of performing automated
CXR interpretation, which can assist physicians with clinical decision-making
and improve patient outcomes. However, developing FMs that can accurately
interpret CXRs is challenging due to the (1) limited availability of
large-scale vision-language datasets in the medical image domain, (2) lack of
vision and language encoders that can capture the complexities of medical data,
and (3) absence of evaluation frameworks for benchmarking the abilities of FMs
on CXR interpretation. In this work, we address these challenges by first
introducing CheXinstruct - a large-scale instruction-tuning dataset
curated from 28 publicly-available datasets. We then present CheXagent -
an instruction-tuned FM capable of analyzing and summarizing CXRs. To build
CheXagent, we design a clinical large language model (LLM) for parsing
radiology reports, a vision encoder for representing CXR images, and a network
to bridge the vision and language modalities. Finally, we introduce
CheXbench - a novel benchmark designed to systematically evaluate FMs
across 8 clinically-relevant CXR interpretation tasks. Extensive quantitative
evaluations and qualitative reviews with five expert radiologists demonstrate
that CheXagent outperforms previously-developed general- and medical-domain FMs
on CheXbench tasks. Furthermore, in an effort to improve model transparency, we
perform a fairness evaluation across factors of sex, race and age to highlight
potential performance disparities. Our project is at
https://stanford-aimi.github.io/chexagent.html.