ChatPaper.aiChatPaper

Rumo à IA Biomédica Generalista

Towards Generalist Biomedical AI

July 26, 2023
Autores: Tao Tu, Shekoofeh Azizi, Danny Driess, Mike Schaekermann, Mohamed Amin, Pi-Chuan Chang, Andrew Carroll, Chuck Lau, Ryutaro Tanno, Ira Ktena, Basil Mustafa, Aakanksha Chowdhery, Yun Liu, Simon Kornblith, David Fleet, Philip Mansfield, Sushant Prakash, Renee Wong, Sunny Virmani, Christopher Semturs, S Sara Mahdavi, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Karan Singhal, Pete Florence, Alan Karthikesalingam, Vivek Natarajan
cs.AI

Resumo

A medicina é inerentemente multimodal, com ricas modalidades de dados que abrangem texto, imagens, genômica e mais. Sistemas de inteligência artificial (IA) biomédica generalistas que codificam, integram e interpretam esses dados de forma flexível e em escala podem potencialmente habilitar aplicações impactantes, desde descobertas científicas até a prestação de cuidados. Para possibilitar o desenvolvimento desses modelos, primeiro organizamos o MultiMedBench, um novo benchmark biomédico multimodal. O MultiMedBench abrange 14 tarefas diversas, como resposta a perguntas médicas, interpretação de imagens de mamografia e dermatologia, geração e sumarização de relatórios radiológicos, e chamada de variantes genômicas. Em seguida, apresentamos o Med-PaLM Multimodal (Med-PaLM M), nossa prova de conceito para um sistema de IA biomédica generalista. O Med-PaLM M é um grande modelo generativo multimodal que codifica e interpreta de forma flexível dados biomédicos, incluindo linguagem clínica, imagens e genômica, com o mesmo conjunto de pesos do modelo. O Med-PaLM M alcança desempenho competitivo ou superior ao estado da arte em todas as tarefas do MultiMedBench, muitas vezes superando modelos especialistas por uma ampla margem. Também relatamos exemplos de generalização zero-shot para novos conceitos e tarefas médicas, transferência positiva de aprendizado entre tarefas e raciocínio médico emergente zero-shot. Para investigar ainda mais as capacidades e limitações do Med-PaLM M, realizamos uma avaliação de radiologistas sobre relatórios de raios-X de tórax gerados pelo modelo (e por humanos) e observamos desempenho encorajador em várias escalas do modelo. Em uma classificação lado a lado de 246 raios-X de tórax retrospectivos, os clínicos expressaram preferência pareada pelos relatórios do Med-PaLM M em relação aos produzidos por radiologistas em até 40,50% dos casos, sugerindo utilidade clínica potencial. Embora seja necessário muito trabalho para validar esses modelos em casos de uso do mundo real, nossos resultados representam um marco no desenvolvimento de sistemas de IA biomédica generalistas.
English
Medicine is inherently multimodal, with rich data modalities spanning text, imaging, genomics, and more. Generalist biomedical artificial intelligence (AI) systems that flexibly encode, integrate, and interpret this data at scale can potentially enable impactful applications ranging from scientific discovery to care delivery. To enable the development of these models, we first curate MultiMedBench, a new multimodal biomedical benchmark. MultiMedBench encompasses 14 diverse tasks such as medical question answering, mammography and dermatology image interpretation, radiology report generation and summarization, and genomic variant calling. We then introduce Med-PaLM Multimodal (Med-PaLM M), our proof of concept for a generalist biomedical AI system. Med-PaLM M is a large multimodal generative model that flexibly encodes and interprets biomedical data including clinical language, imaging, and genomics with the same set of model weights. Med-PaLM M reaches performance competitive with or exceeding the state of the art on all MultiMedBench tasks, often surpassing specialist models by a wide margin. We also report examples of zero-shot generalization to novel medical concepts and tasks, positive transfer learning across tasks, and emergent zero-shot medical reasoning. To further probe the capabilities and limitations of Med-PaLM M, we conduct a radiologist evaluation of model-generated (and human) chest X-ray reports and observe encouraging performance across model scales. In a side-by-side ranking on 246 retrospective chest X-rays, clinicians express a pairwise preference for Med-PaLM M reports over those produced by radiologists in up to 40.50% of cases, suggesting potential clinical utility. While considerable work is needed to validate these models in real-world use cases, our results represent a milestone towards the development of generalist biomedical AI systems.
PDF130February 8, 2026