CheXagent: Verso un Modello Fondamentale per l'Interpretazione delle Radiografie Toraciche
CheXagent: Towards a Foundation Model for Chest X-Ray Interpretation
January 22, 2024
Autori: Zhihong Chen, Maya Varma, Jean-Benoit Delbrouck, Magdalini Paschali, Louis Blankemeier, Dave Van Veen, Jeya Maria Jose Valanarasu, Alaa Youssef, Joseph Paul Cohen, Eduardo Pontes Reis, Emily B. Tsai, Andrew Johnston, Cameron Olsen, Tanishq Mathew Abraham, Sergios Gatidis, Akshay S. Chaudhari, Curtis Langlotz
cs.AI
Abstract
Le radiografie del torace (CXRs) sono l'esame di imaging più frequentemente eseguito nella pratica clinica. I recenti progressi nello sviluppo di modelli di base (FMs) visione-linguaggio aprono la possibilità di eseguire un'interpretazione automatizzata delle CXRs, che può assistere i medici nel processo decisionale clinico e migliorare gli esiti dei pazienti. Tuttavia, sviluppare FMs in grado di interpretare accuratamente le CXRs è impegnativo a causa di (1) disponibilità limitata di dataset su larga scala visione-linguaggio nel dominio delle immagini mediche, (2) mancanza di encoder di visione e linguaggio in grado di catturare le complessità dei dati medici, e (3) assenza di framework di valutazione per confrontare le capacità dei FMs nell'interpretazione delle CXRs. In questo lavoro, affrontiamo queste sfide introducendo prima CheXinstruct - un dataset su larga scala per l'instruction-tuning curato da 28 dataset pubblicamente disponibili. Presentiamo poi CheXagent - un FM ottimizzato per l'instruction-tuning in grado di analizzare e riassumere le CXRs. Per costruire CheXagent, progettiamo un modello di linguaggio su larga scala (LLM) clinico per l'analisi dei referti radiologici, un encoder visivo per rappresentare le immagini CXR e una rete per collegare le modalità visiva e linguistica. Infine, introduciamo CheXbench - un nuovo benchmark progettato per valutare sistematicamente i FMs su 8 compiti clinicamente rilevanti di interpretazione delle CXRs. Valutazioni quantitative estese e revisioni qualitative con cinque radiologi esperti dimostrano che CheXagent supera i FMs precedentemente sviluppati, sia di dominio generale che medico, nei compiti di CheXbench. Inoltre, nel tentativo di migliorare la trasparenza del modello, eseguiamo una valutazione di equità rispetto a fattori di sesso, razza ed età per evidenziare potenziali disparità di prestazione. Il nostro progetto è disponibile all'indirizzo https://stanford-aimi.github.io/chexagent.html.
English
Chest X-rays (CXRs) are the most frequently performed imaging test in
clinical practice. Recent advances in the development of vision-language
foundation models (FMs) give rise to the possibility of performing automated
CXR interpretation, which can assist physicians with clinical decision-making
and improve patient outcomes. However, developing FMs that can accurately
interpret CXRs is challenging due to the (1) limited availability of
large-scale vision-language datasets in the medical image domain, (2) lack of
vision and language encoders that can capture the complexities of medical data,
and (3) absence of evaluation frameworks for benchmarking the abilities of FMs
on CXR interpretation. In this work, we address these challenges by first
introducing CheXinstruct - a large-scale instruction-tuning dataset
curated from 28 publicly-available datasets. We then present CheXagent -
an instruction-tuned FM capable of analyzing and summarizing CXRs. To build
CheXagent, we design a clinical large language model (LLM) for parsing
radiology reports, a vision encoder for representing CXR images, and a network
to bridge the vision and language modalities. Finally, we introduce
CheXbench - a novel benchmark designed to systematically evaluate FMs
across 8 clinically-relevant CXR interpretation tasks. Extensive quantitative
evaluations and qualitative reviews with five expert radiologists demonstrate
that CheXagent outperforms previously-developed general- and medical-domain FMs
on CheXbench tasks. Furthermore, in an effort to improve model transparency, we
perform a fairness evaluation across factors of sex, race and age to highlight
potential performance disparities. Our project is at
https://stanford-aimi.github.io/chexagent.html.