ChatPaper.aiChatPaper

Verso un'IA Biomedica Generalista

Towards Generalist Biomedical AI

July 26, 2023
Autori: Tao Tu, Shekoofeh Azizi, Danny Driess, Mike Schaekermann, Mohamed Amin, Pi-Chuan Chang, Andrew Carroll, Chuck Lau, Ryutaro Tanno, Ira Ktena, Basil Mustafa, Aakanksha Chowdhery, Yun Liu, Simon Kornblith, David Fleet, Philip Mansfield, Sushant Prakash, Renee Wong, Sunny Virmani, Christopher Semturs, S Sara Mahdavi, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Karan Singhal, Pete Florence, Alan Karthikesalingam, Vivek Natarajan
cs.AI

Abstract

La medicina è intrinsecamente multimodale, con ricche modalità di dati che spaziano da testi, immagini, genomica e altro ancora. I sistemi di intelligenza artificiale (AI) biomedica generalisti che codificano, integrano e interpretano in modo flessibile questi dati su larga scala possono potenzialmente abilitare applicazioni di impatto che vanno dalla scoperta scientifica alla fornitura di cure. Per favorire lo sviluppo di questi modelli, abbiamo prima curato MultiMedBench, un nuovo benchmark biomedico multimodale. MultiMedBench comprende 14 task diversi come risposte a domande mediche, interpretazione di immagini mammografiche e dermatologiche, generazione e riassunto di referti radiologici e chiamata di varianti genomiche. Introduciamo poi Med-PaLM Multimodale (Med-PaLM M), la nostra prova di concetto per un sistema di AI biomedica generalista. Med-PaLM M è un grande modello generativo multimodale che codifica e interpreta in modo flessibile dati biomedici, tra cui linguaggio clinico, immagini e genomica, utilizzando lo stesso set di pesi del modello. Med-PaLM M raggiunge prestazioni competitive o superiori allo stato dell'arte in tutti i task di MultiMedBench, spesso superando ampiamente i modelli specialistici. Riportiamo anche esempi di generalizzazione zero-shot a nuovi concetti e task medici, trasferimento positivo di apprendimento tra task e ragionamento medico emergente zero-shot. Per approfondire le capacità e i limiti di Med-PaLM M, abbiamo condotto una valutazione radiologica di referti generati dal modello (e umani) per radiografie del torace, osservando prestazioni incoraggianti su diverse scale del modello. In una classifica comparativa su 246 radiografie del torace retrospettive, i clinici hanno espresso una preferenza a coppie per i referti di Med-PaLM M rispetto a quelli prodotti dai radiologi in fino al 40,50% dei casi, suggerendo una potenziale utilità clinica. Sebbene sia necessario un lavoro considerevole per validare questi modelli in casi d'uso reali, i nostri risultati rappresentano una pietra miliare verso lo sviluppo di sistemi di AI biomedica generalisti.
English
Medicine is inherently multimodal, with rich data modalities spanning text, imaging, genomics, and more. Generalist biomedical artificial intelligence (AI) systems that flexibly encode, integrate, and interpret this data at scale can potentially enable impactful applications ranging from scientific discovery to care delivery. To enable the development of these models, we first curate MultiMedBench, a new multimodal biomedical benchmark. MultiMedBench encompasses 14 diverse tasks such as medical question answering, mammography and dermatology image interpretation, radiology report generation and summarization, and genomic variant calling. We then introduce Med-PaLM Multimodal (Med-PaLM M), our proof of concept for a generalist biomedical AI system. Med-PaLM M is a large multimodal generative model that flexibly encodes and interprets biomedical data including clinical language, imaging, and genomics with the same set of model weights. Med-PaLM M reaches performance competitive with or exceeding the state of the art on all MultiMedBench tasks, often surpassing specialist models by a wide margin. We also report examples of zero-shot generalization to novel medical concepts and tasks, positive transfer learning across tasks, and emergent zero-shot medical reasoning. To further probe the capabilities and limitations of Med-PaLM M, we conduct a radiologist evaluation of model-generated (and human) chest X-ray reports and observe encouraging performance across model scales. In a side-by-side ranking on 246 retrospective chest X-rays, clinicians express a pairwise preference for Med-PaLM M reports over those produced by radiologists in up to 40.50% of cases, suggesting potential clinical utility. While considerable work is needed to validate these models in real-world use cases, our results represent a milestone towards the development of generalist biomedical AI systems.
PDF130February 8, 2026