ELIXR: Op weg naar een algemeen toepasbaar röntgenkunstmatige intelligentiesysteem door afstemming van grote taalmodellen en radiologische visuele encoders

Samenvatting

Onze aanpak, die we Embeddings for Language/Image-aligned X-Rays (ELIXR) noemen, maakt gebruik van een taalgealigneerde beeldencoder die gecombineerd of geënt is op een vast taalmodel, PaLM 2, om een breed scala aan taken uit te voeren. We trainen deze lichtgewicht adapterarchitectuur met behulp van afbeeldingen die gepaard gaan met bijbehorende vrije-tekst radiologieverslagen uit de MIMIC-CXR-dataset. ELIXR behaalde state-of-the-art prestaties op zero-shot thoraxfoto (CXR) classificatie (gemiddelde AUC van 0.850 over 13 bevindingen), data-efficiënte CXR-classificatie (gemiddelde AUC's van 0.893 en 0.898 over vijf bevindingen (atelectase, cardiomegalie, consolidatie, pleuravocht en longoedeem) voor 1% (~2.200 afbeeldingen) en 10% (~22.000 afbeeldingen) trainingsdata), en semantisch zoeken (0.76 genormaliseerd gedisconteerd cumulatief rendement (NDCG) over negentien zoekopdrachten, inclusief perfecte retrievals op twaalf daarvan). In vergelijking met bestaande data-efficiënte methoden, waaronder supervised contrastive learning (SupCon), had ELIXR twee ordes van grootte minder data nodig om vergelijkbare prestaties te bereiken. ELIXR toonde ook belofte op CXR vision-language taken, met algemene nauwkeurigheden van 58,7% en 62,5% op visuele vraagbeantwoording en rapportkwaliteitsborgingstaken, respectievelijk. Deze resultaten suggereren dat ELIXR een robuuste en veelzijdige aanpak is voor CXR AI.

English

Our approach, which we call Embeddings for Language/Image-aligned X-Rays, or ELIXR, leverages a language-aligned image encoder combined or grafted onto a fixed LLM, PaLM 2, to perform a broad range of tasks. We train this lightweight adapter architecture using images paired with corresponding free-text radiology reports from the MIMIC-CXR dataset. ELIXR achieved state-of-the-art performance on zero-shot chest X-ray (CXR) classification (mean AUC of 0.850 across 13 findings), data-efficient CXR classification (mean AUCs of 0.893 and 0.898 across five findings (atelectasis, cardiomegaly, consolidation, pleural effusion, and pulmonary edema) for 1% (~2,200 images) and 10% (~22,000 images) training data), and semantic search (0.76 normalized discounted cumulative gain (NDCG) across nineteen queries, including perfect retrieval on twelve of them). Compared to existing data-efficient methods including supervised contrastive learning (SupCon), ELIXR required two orders of magnitude less data to reach similar performance. ELIXR also showed promise on CXR vision-language tasks, demonstrating overall accuracies of 58.7% and 62.5% on visual question answering and report quality assurance tasks, respectively. These results suggest that ELIXR is a robust and versatile approach to CXR AI.

ELIXR: Op weg naar een algemeen toepasbaar röntgenkunstmatige intelligentiesysteem door afstemming van grote taalmodellen en radiologische visuele encoders

ELIXR: Towards a general purpose X-ray artificial intelligence system through alignment of large language models and radiology vision encoders

Samenvatting

Support