Verso un'IA Biomedica Generalista
Towards Generalist Biomedical AI
July 26, 2023
Autori: Tao Tu, Shekoofeh Azizi, Danny Driess, Mike Schaekermann, Mohamed Amin, Pi-Chuan Chang, Andrew Carroll, Chuck Lau, Ryutaro Tanno, Ira Ktena, Basil Mustafa, Aakanksha Chowdhery, Yun Liu, Simon Kornblith, David Fleet, Philip Mansfield, Sushant Prakash, Renee Wong, Sunny Virmani, Christopher Semturs, S Sara Mahdavi, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Karan Singhal, Pete Florence, Alan Karthikesalingam, Vivek Natarajan
cs.AI
Abstract
La medicina è intrinsecamente multimodale, con ricche modalità di dati che spaziano da testi, immagini, genomica e altro ancora. I sistemi di intelligenza artificiale (AI) biomedica generalisti che codificano, integrano e interpretano in modo flessibile questi dati su larga scala possono potenzialmente abilitare applicazioni di impatto che vanno dalla scoperta scientifica alla fornitura di cure. Per favorire lo sviluppo di questi modelli, abbiamo prima curato MultiMedBench, un nuovo benchmark biomedico multimodale. MultiMedBench comprende 14 task diversi come risposte a domande mediche, interpretazione di immagini mammografiche e dermatologiche, generazione e riassunto di referti radiologici e chiamata di varianti genomiche. Introduciamo poi Med-PaLM Multimodale (Med-PaLM M), la nostra prova di concetto per un sistema di AI biomedica generalista. Med-PaLM M è un grande modello generativo multimodale che codifica e interpreta in modo flessibile dati biomedici, tra cui linguaggio clinico, immagini e genomica, utilizzando lo stesso set di pesi del modello. Med-PaLM M raggiunge prestazioni competitive o superiori allo stato dell'arte in tutti i task di MultiMedBench, spesso superando ampiamente i modelli specialistici. Riportiamo anche esempi di generalizzazione zero-shot a nuovi concetti e task medici, trasferimento positivo di apprendimento tra task e ragionamento medico emergente zero-shot. Per approfondire le capacità e i limiti di Med-PaLM M, abbiamo condotto una valutazione radiologica di referti generati dal modello (e umani) per radiografie del torace, osservando prestazioni incoraggianti su diverse scale del modello. In una classifica comparativa su 246 radiografie del torace retrospettive, i clinici hanno espresso una preferenza a coppie per i referti di Med-PaLM M rispetto a quelli prodotti dai radiologi in fino al 40,50% dei casi, suggerendo una potenziale utilità clinica. Sebbene sia necessario un lavoro considerevole per validare questi modelli in casi d'uso reali, i nostri risultati rappresentano una pietra miliare verso lo sviluppo di sistemi di AI biomedica generalisti.
English
Medicine is inherently multimodal, with rich data modalities spanning text,
imaging, genomics, and more. Generalist biomedical artificial intelligence (AI)
systems that flexibly encode, integrate, and interpret this data at scale can
potentially enable impactful applications ranging from scientific discovery to
care delivery. To enable the development of these models, we first curate
MultiMedBench, a new multimodal biomedical benchmark. MultiMedBench encompasses
14 diverse tasks such as medical question answering, mammography and
dermatology image interpretation, radiology report generation and
summarization, and genomic variant calling. We then introduce Med-PaLM
Multimodal (Med-PaLM M), our proof of concept for a generalist biomedical AI
system. Med-PaLM M is a large multimodal generative model that flexibly encodes
and interprets biomedical data including clinical language, imaging, and
genomics with the same set of model weights. Med-PaLM M reaches performance
competitive with or exceeding the state of the art on all MultiMedBench tasks,
often surpassing specialist models by a wide margin. We also report examples of
zero-shot generalization to novel medical concepts and tasks, positive transfer
learning across tasks, and emergent zero-shot medical reasoning. To further
probe the capabilities and limitations of Med-PaLM M, we conduct a radiologist
evaluation of model-generated (and human) chest X-ray reports and observe
encouraging performance across model scales. In a side-by-side ranking on 246
retrospective chest X-rays, clinicians express a pairwise preference for
Med-PaLM M reports over those produced by radiologists in up to 40.50% of
cases, suggesting potential clinical utility. While considerable work is needed
to validate these models in real-world use cases, our results represent a
milestone towards the development of generalist biomedical AI systems.