CheXagent: Op weg naar een fundamenteel model voor de interpretatie van thoraxfoto's
CheXagent: Towards a Foundation Model for Chest X-Ray Interpretation
January 22, 2024
Auteurs: Zhihong Chen, Maya Varma, Jean-Benoit Delbrouck, Magdalini Paschali, Louis Blankemeier, Dave Van Veen, Jeya Maria Jose Valanarasu, Alaa Youssef, Joseph Paul Cohen, Eduardo Pontes Reis, Emily B. Tsai, Andrew Johnston, Cameron Olsen, Tanishq Mathew Abraham, Sergios Gatidis, Akshay S. Chaudhari, Curtis Langlotz
cs.AI
Samenvatting
Borstfoto's (CXRs) zijn de meest uitgevoerde beeldvormingstest in de klinische praktijk. Recente vooruitgang in de ontwikkeling van vision-language foundation models (FMs) maakt het mogelijk om geautomatiseerde CXR-interpretatie uit te voeren, wat artsen kan ondersteunen bij klinische besluitvorming en patiëntresultaten kan verbeteren. Het ontwikkelen van FMs die CXRs nauwkeurig kunnen interpreteren, is echter uitdagend vanwege (1) de beperkte beschikbaarheid van grootschalige vision-language datasets in het domein van medische beeldvorming, (2) het ontbreken van vision- en language-encoders die de complexiteit van medische data kunnen vastleggen, en (3) de afwezigheid van evaluatieframeworks om de vaardigheden van FMs op het gebied van CXR-interpretatie te benchmarken. In dit werk gaan we deze uitdagingen aan door eerst CheXinstruct te introduceren - een grootschalige instructie-afstemmingsdataset samengesteld uit 28 openbaar beschikbare datasets. Vervolgens presenteren we CheXagent - een instructie-afgestemde FM die CXRs kan analyseren en samenvatten. Om CheXagent te bouwen, ontwerpen we een klinisch large language model (LLM) voor het parsen van radiologieverslagen, een vision-encoder voor het representeren van CXR-beelden, en een netwerk om de vision- en language-modaliteiten te verbinden. Tot slot introduceren we CheXbench - een nieuw benchmark ontworpen om FMs systematisch te evalueren op 8 klinisch relevante CXR-interpretatietaken. Uitgebreide kwantitatieve evaluaties en kwalitatieve reviews met vijf expert-radiologen tonen aan dat CheXagent eerder ontwikkelde algemene en medische domein-FMs overtreft op CheXbench-taken. Bovendien voeren we, in een poging de transparantie van het model te verbeteren, een eerlijkheidsevaluatie uit op basis van geslacht, ras en leeftijd om mogelijke prestatieverschillen te benadrukken. Ons project is te vinden op https://stanford-aimi.github.io/chexagent.html.
English
Chest X-rays (CXRs) are the most frequently performed imaging test in
clinical practice. Recent advances in the development of vision-language
foundation models (FMs) give rise to the possibility of performing automated
CXR interpretation, which can assist physicians with clinical decision-making
and improve patient outcomes. However, developing FMs that can accurately
interpret CXRs is challenging due to the (1) limited availability of
large-scale vision-language datasets in the medical image domain, (2) lack of
vision and language encoders that can capture the complexities of medical data,
and (3) absence of evaluation frameworks for benchmarking the abilities of FMs
on CXR interpretation. In this work, we address these challenges by first
introducing CheXinstruct - a large-scale instruction-tuning dataset
curated from 28 publicly-available datasets. We then present CheXagent -
an instruction-tuned FM capable of analyzing and summarizing CXRs. To build
CheXagent, we design a clinical large language model (LLM) for parsing
radiology reports, a vision encoder for representing CXR images, and a network
to bridge the vision and language modalities. Finally, we introduce
CheXbench - a novel benchmark designed to systematically evaluate FMs
across 8 clinically-relevant CXR interpretation tasks. Extensive quantitative
evaluations and qualitative reviews with five expert radiologists demonstrate
that CheXagent outperforms previously-developed general- and medical-domain FMs
on CheXbench tasks. Furthermore, in an effort to improve model transparency, we
perform a fairness evaluation across factors of sex, race and age to highlight
potential performance disparities. Our project is at
https://stanford-aimi.github.io/chexagent.html.