ELIXR: Verso un sistema di intelligenza artificiale generico per i raggi X attraverso l'allineamento di modelli linguistici su larga scala e encoder visivi per la radiologia

Abstract

Il nostro approccio, che chiamiamo Embeddings for Language/Image-aligned X-Rays, o ELIXR, sfrutta un codificatore di immagini allineato al linguaggio combinato o innestato su un LLM fisso, PaLM 2, per eseguire un'ampia gamma di task. Addestriamo questa architettura adattativa leggera utilizzando immagini accoppiate a corrispondenti referti radiologici in testo libero provenienti dal dataset MIMIC-CXR. ELIXR ha raggiunto prestazioni all'avanguardia nella classificazione zero-shot di radiografie del torace (CXR) (AUC medio di 0,850 su 13 reperti), nella classificazione di CXR con uso efficiente dei dati (AUC medi di 0,893 e 0,898 su cinque reperti - atelettasia, cardiomegalia, consolidamento, versamento pleurico ed edema polmonare - rispettivamente per l'1% (~2.200 immagini) e il 10% (~22.000 immagini) dei dati di training), e nella ricerca semantica (0,76 di Normalized Discounted Cumulative Gain (NDCG) su diciannove query, con recupero perfetto su dodici di esse). Rispetto ai metodi esistenti per l'uso efficiente dei dati, inclusi l'apprendimento contrastivo supervisionato (SupCon), ELIXR ha richiesto due ordini di grandezza in meno di dati per raggiungere prestazioni simili. ELIXR ha anche mostrato potenziale nei task di visione e linguaggio su CXR, dimostrando accuratezze complessive del 58,7% e del 62,5% rispettivamente nei task di risposta a domande visive e di controllo qualità dei referti. Questi risultati suggeriscono che ELIXR è un approccio robusto e versatile per l'IA applicata alle CXR.

English

Our approach, which we call Embeddings for Language/Image-aligned X-Rays, or ELIXR, leverages a language-aligned image encoder combined or grafted onto a fixed LLM, PaLM 2, to perform a broad range of tasks. We train this lightweight adapter architecture using images paired with corresponding free-text radiology reports from the MIMIC-CXR dataset. ELIXR achieved state-of-the-art performance on zero-shot chest X-ray (CXR) classification (mean AUC of 0.850 across 13 findings), data-efficient CXR classification (mean AUCs of 0.893 and 0.898 across five findings (atelectasis, cardiomegaly, consolidation, pleural effusion, and pulmonary edema) for 1% (~2,200 images) and 10% (~22,000 images) training data), and semantic search (0.76 normalized discounted cumulative gain (NDCG) across nineteen queries, including perfect retrieval on twelve of them). Compared to existing data-efficient methods including supervised contrastive learning (SupCon), ELIXR required two orders of magnitude less data to reach similar performance. ELIXR also showed promise on CXR vision-language tasks, demonstrating overall accuracies of 58.7% and 62.5% on visual question answering and report quality assurance tasks, respectively. These results suggest that ELIXR is a robust and versatile approach to CXR AI.

ELIXR: Verso un sistema di intelligenza artificiale generico per i raggi X attraverso l'allineamento di modelli linguistici su larga scala e encoder visivi per la radiologia

ELIXR: Towards a general purpose X-ray artificial intelligence system through alignment of large language models and radiology vision encoders

Abstract

Support