ChatPaper.aiChatPaper

Vers une intelligence artificielle biomédicale généraliste

Towards Generalist Biomedical AI

July 26, 2023
Auteurs: Tao Tu, Shekoofeh Azizi, Danny Driess, Mike Schaekermann, Mohamed Amin, Pi-Chuan Chang, Andrew Carroll, Chuck Lau, Ryutaro Tanno, Ira Ktena, Basil Mustafa, Aakanksha Chowdhery, Yun Liu, Simon Kornblith, David Fleet, Philip Mansfield, Sushant Prakash, Renee Wong, Sunny Virmani, Christopher Semturs, S Sara Mahdavi, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Karan Singhal, Pete Florence, Alan Karthikesalingam, Vivek Natarajan
cs.AI

Résumé

La médecine est intrinsèquement multimodale, avec des données riches couvrant le texte, l'imagerie, la génomique et bien plus encore. Les systèmes d'intelligence artificielle (IA) biomédicale généralistes capables d'encoder, d'intégrer et d'interpréter ces données à grande échelle de manière flexible pourraient potentiellement permettre des applications impactantes, allant de la découverte scientifique à la prestation de soins. Pour faciliter le développement de ces modèles, nous avons d'abord constitué MultiMedBench, un nouveau benchmark biomédical multimodal. MultiMedBench englobe 14 tâches variées telles que la réponse à des questions médicales, l'interprétation d'images de mammographie et de dermatologie, la génération et la synthèse de rapports radiologiques, ainsi que l'appel de variants génomiques. Nous présentons ensuite Med-PaLM Multimodal (Med-PaLM M), notre preuve de concept pour un système d'IA biomédicale généraliste. Med-PaLM M est un grand modèle génératif multimodal qui encode et interprète de manière flexible les données biomédicales, y compris le langage clinique, l'imagerie et la génomique, en utilisant le même ensemble de poids de modèle. Med-PaLM M atteint des performances compétitives ou supérieures à l'état de l'art sur toutes les tâches de MultiMedBench, surpassant souvent les modèles spécialisés par une large marge. Nous rapportons également des exemples de généralisation zero-shot à de nouveaux concepts et tâches médicaux, de transfert d'apprentissage positif entre tâches, et de raisonnement médical zero-shot émergent. Pour approfondir les capacités et les limites de Med-PaLM M, nous avons mené une évaluation par des radiologues des rapports de radiographies thoraciques générés par le modèle (et par des humains), observant des performances encourageantes à différentes échelles de modèles. Dans un classement côte à côte sur 246 radiographies thoraciques rétrospectives, les cliniciens ont exprimé une préférence par paire pour les rapports de Med-PaLM M par rapport à ceux produits par des radiologues dans jusqu'à 40,50 % des cas, suggérant une utilité clinique potentielle. Bien qu'un travail considérable soit nécessaire pour valider ces modèles dans des cas d'utilisation réels, nos résultats représentent une étape importante vers le développement de systèmes d'IA biomédicale généralistes.
English
Medicine is inherently multimodal, with rich data modalities spanning text, imaging, genomics, and more. Generalist biomedical artificial intelligence (AI) systems that flexibly encode, integrate, and interpret this data at scale can potentially enable impactful applications ranging from scientific discovery to care delivery. To enable the development of these models, we first curate MultiMedBench, a new multimodal biomedical benchmark. MultiMedBench encompasses 14 diverse tasks such as medical question answering, mammography and dermatology image interpretation, radiology report generation and summarization, and genomic variant calling. We then introduce Med-PaLM Multimodal (Med-PaLM M), our proof of concept for a generalist biomedical AI system. Med-PaLM M is a large multimodal generative model that flexibly encodes and interprets biomedical data including clinical language, imaging, and genomics with the same set of model weights. Med-PaLM M reaches performance competitive with or exceeding the state of the art on all MultiMedBench tasks, often surpassing specialist models by a wide margin. We also report examples of zero-shot generalization to novel medical concepts and tasks, positive transfer learning across tasks, and emergent zero-shot medical reasoning. To further probe the capabilities and limitations of Med-PaLM M, we conduct a radiologist evaluation of model-generated (and human) chest X-ray reports and observe encouraging performance across model scales. In a side-by-side ranking on 246 retrospective chest X-rays, clinicians express a pairwise preference for Med-PaLM M reports over those produced by radiologists in up to 40.50% of cases, suggesting potential clinical utility. While considerable work is needed to validate these models in real-world use cases, our results represent a milestone towards the development of generalist biomedical AI systems.
PDF130December 15, 2024