Rumo à IA Biomédica Generalista
Towards Generalist Biomedical AI
July 26, 2023
Autores: Tao Tu, Shekoofeh Azizi, Danny Driess, Mike Schaekermann, Mohamed Amin, Pi-Chuan Chang, Andrew Carroll, Chuck Lau, Ryutaro Tanno, Ira Ktena, Basil Mustafa, Aakanksha Chowdhery, Yun Liu, Simon Kornblith, David Fleet, Philip Mansfield, Sushant Prakash, Renee Wong, Sunny Virmani, Christopher Semturs, S Sara Mahdavi, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Karan Singhal, Pete Florence, Alan Karthikesalingam, Vivek Natarajan
cs.AI
Resumo
A medicina é inerentemente multimodal, com ricas modalidades de dados que abrangem texto, imagens, genômica e mais. Sistemas de inteligência artificial (IA) biomédica generalistas que codificam, integram e interpretam esses dados de forma flexível e em escala podem potencialmente habilitar aplicações impactantes, desde descobertas científicas até a prestação de cuidados. Para possibilitar o desenvolvimento desses modelos, primeiro organizamos o MultiMedBench, um novo benchmark biomédico multimodal. O MultiMedBench abrange 14 tarefas diversas, como resposta a perguntas médicas, interpretação de imagens de mamografia e dermatologia, geração e sumarização de relatórios radiológicos, e chamada de variantes genômicas. Em seguida, apresentamos o Med-PaLM Multimodal (Med-PaLM M), nossa prova de conceito para um sistema de IA biomédica generalista. O Med-PaLM M é um grande modelo generativo multimodal que codifica e interpreta de forma flexível dados biomédicos, incluindo linguagem clínica, imagens e genômica, com o mesmo conjunto de pesos do modelo. O Med-PaLM M alcança desempenho competitivo ou superior ao estado da arte em todas as tarefas do MultiMedBench, muitas vezes superando modelos especialistas por uma ampla margem. Também relatamos exemplos de generalização zero-shot para novos conceitos e tarefas médicas, transferência positiva de aprendizado entre tarefas e raciocínio médico emergente zero-shot. Para investigar ainda mais as capacidades e limitações do Med-PaLM M, realizamos uma avaliação de radiologistas sobre relatórios de raios-X de tórax gerados pelo modelo (e por humanos) e observamos desempenho encorajador em várias escalas do modelo. Em uma classificação lado a lado de 246 raios-X de tórax retrospectivos, os clínicos expressaram preferência pareada pelos relatórios do Med-PaLM M em relação aos produzidos por radiologistas em até 40,50% dos casos, sugerindo utilidade clínica potencial. Embora seja necessário muito trabalho para validar esses modelos em casos de uso do mundo real, nossos resultados representam um marco no desenvolvimento de sistemas de IA biomédica generalistas.
English
Medicine is inherently multimodal, with rich data modalities spanning text,
imaging, genomics, and more. Generalist biomedical artificial intelligence (AI)
systems that flexibly encode, integrate, and interpret this data at scale can
potentially enable impactful applications ranging from scientific discovery to
care delivery. To enable the development of these models, we first curate
MultiMedBench, a new multimodal biomedical benchmark. MultiMedBench encompasses
14 diverse tasks such as medical question answering, mammography and
dermatology image interpretation, radiology report generation and
summarization, and genomic variant calling. We then introduce Med-PaLM
Multimodal (Med-PaLM M), our proof of concept for a generalist biomedical AI
system. Med-PaLM M is a large multimodal generative model that flexibly encodes
and interprets biomedical data including clinical language, imaging, and
genomics with the same set of model weights. Med-PaLM M reaches performance
competitive with or exceeding the state of the art on all MultiMedBench tasks,
often surpassing specialist models by a wide margin. We also report examples of
zero-shot generalization to novel medical concepts and tasks, positive transfer
learning across tasks, and emergent zero-shot medical reasoning. To further
probe the capabilities and limitations of Med-PaLM M, we conduct a radiologist
evaluation of model-generated (and human) chest X-ray reports and observe
encouraging performance across model scales. In a side-by-side ranking on 246
retrospective chest X-rays, clinicians express a pairwise preference for
Med-PaLM M reports over those produced by radiologists in up to 40.50% of
cases, suggesting potential clinical utility. While considerable work is needed
to validate these models in real-world use cases, our results represent a
milestone towards the development of generalist biomedical AI systems.