ELIXR : Vers un système d'intelligence artificielle polyvalent pour les rayons X grâce à l'alignement de grands modèles de langage et d'encodeurs visuels en radiologie
ELIXR: Towards a general purpose X-ray artificial intelligence system through alignment of large language models and radiology vision encoders
August 2, 2023
Auteurs: Shawn Xu, Lin Yang, Christopher Kelly, Marcin Sieniek, Timo Kohlberger, Martin Ma, Wei-Hung Weng, Attila Kiraly, Sahar Kazemzadeh, Zakkai Melamed, Jungyeon Park, Patricia Strachan, Yun Liu, Chuck Lau, Preeti Singh, Christina Chen, Mozziyar Etemadi, Sreenivasa Raju Kalidindi, Yossi Matias, Katherine Chou, Greg S. Corrado, Shravya Shetty, Daniel Tse, Shruthi Prabhakara, Daniel Golden, Rory Pilgrim, Krish Eswaran, Andrew Sellergren
cs.AI
Résumé
Notre approche, que nous appelons Embeddings for Language/Image-aligned X-Rays, ou ELIXR, exploite un encodeur d'images aligné sur le langage, combiné ou greffé à un modèle de langage large (LLM) fixe, PaLM 2, pour accomplir une large gamme de tâches. Nous entraînons cette architecture d'adaptation légère en utilisant des images associées à des rapports radiologiques en texte libre issus du jeu de données MIMIC-CXR. ELIXR a atteint des performances de pointe en classification zero-shot de radiographies thoraciques (CXR) (AUC moyen de 0,850 sur 13 observations), en classification de CXR avec une utilisation efficace des données (AUC moyens de 0,893 et 0,898 sur cinq observations (atélectasie, cardiomégalie, consolidation, épanchement pleural et œdème pulmonaire) pour 1 % (~2 200 images) et 10 % (~22 000 images) des données d'entraînement), et en recherche sémantique (0,76 de gain cumulé actualisé normalisé (NDCG) sur dix-neuf requêtes, incluant une récupération parfaite pour douze d'entre elles). Comparé aux méthodes existantes d'utilisation efficace des données, y compris l'apprentissage contrastif supervisé (SupCon), ELIXR a nécessité deux ordres de grandeur de données en moins pour atteindre des performances similaires. ELIXR a également montré des résultats prometteurs sur les tâches de vision-langage en CXR, démontrant des précisions globales de 58,7 % et 62,5 % sur les tâches de réponse à des questions visuelles et d'assurance qualité des rapports, respectivement. Ces résultats suggèrent qu'ELIXR est une approche robuste et polyvalente pour l'IA appliquée aux radiographies thoraciques.
English
Our approach, which we call Embeddings for Language/Image-aligned X-Rays, or
ELIXR, leverages a language-aligned image encoder combined or grafted onto a
fixed LLM, PaLM 2, to perform a broad range of tasks. We train this lightweight
adapter architecture using images paired with corresponding free-text radiology
reports from the MIMIC-CXR dataset. ELIXR achieved state-of-the-art performance
on zero-shot chest X-ray (CXR) classification (mean AUC of 0.850 across 13
findings), data-efficient CXR classification (mean AUCs of 0.893 and 0.898
across five findings (atelectasis, cardiomegaly, consolidation, pleural
effusion, and pulmonary edema) for 1% (~2,200 images) and 10% (~22,000 images)
training data), and semantic search (0.76 normalized discounted cumulative gain
(NDCG) across nineteen queries, including perfect retrieval on twelve of them).
Compared to existing data-efficient methods including supervised contrastive
learning (SupCon), ELIXR required two orders of magnitude less data to reach
similar performance. ELIXR also showed promise on CXR vision-language tasks,
demonstrating overall accuracies of 58.7% and 62.5% on visual question
answering and report quality assurance tasks, respectively. These results
suggest that ELIXR is a robust and versatile approach to CXR AI.