Capacidades dos Modelos Gemini na Medicina
Capabilities of Gemini Models in Medicine
April 29, 2024
Autores: Khaled Saab, Tao Tu, Wei-Hung Weng, Ryutaro Tanno, David Stutz, Ellery Wulczyn, Fan Zhang, Tim Strother, Chunjong Park, Elahe Vedadi, Juanma Zambrano Chaves, Szu-Yeu Hu, Mike Schaekermann, Aishwarya Kamath, Yong Cheng, David G. T. Barrett, Cathy Cheung, Basil Mustafa, Anil Palepu, Daniel McDuff, Le Hou, Tomer Golany, Luyang Liu, Jean-baptiste Alayrac, Neil Houlsby, Nenad Tomasev, Jan Freyberg, Charles Lau, Jonas Kemp, Jeremy Lai, Shekoofeh Azizi, Kimberly Kanada, SiWai Man, Kavita Kulkarni, Ruoxi Sun, Siamak Shakeri, Luheng He, Ben Caine, Albert Webson, Natasha Latysheva, Melvin Johnson, Philip Mansfield, Jian Lu, Ehud Rivlin, Jesper Anderson, Bradley Green, Renee Wong, Jonathan Krause, Jonathon Shlens, Ewa Dominowska, S. M. Ali Eslami, Claire Cui, Oriol Vinyals, Koray Kavukcuoglu, James Manyika, Jeff Dean, Demis Hassabis, Yossi Matias, Dale Webster, Joelle Barral, Greg Corrado, Christopher Semturs, S. Sara Mahdavi, Juraj Gottweis, Alan Karthikesalingam, Vivek Natarajan
cs.AI
Resumo
A excelência em uma ampla variedade de aplicações médicas apresenta desafios consideráveis para a IA, exigindo raciocínio avançado, acesso a conhecimentos médicos atualizados e compreensão de dados multimodais complexos. Os modelos Gemini, com capacidades gerais robustas em raciocínio multimodal e de contexto longo, oferecem possibilidades empolgantes na medicina. Com base nessas forças centrais do Gemini, apresentamos o Med-Gemini, uma família de modelos multimodais altamente capacitados e especializados em medicina, com a capacidade de utilizar de forma integrada a pesquisa na web e que podem ser eficientemente adaptados a novas modalidades por meio de codificadores personalizados. Avaliamos o Med-Gemini em 14 benchmarks médicos, estabelecendo novos recordes de desempenho state-of-the-art (SoTA) em 10 deles, e superamos a família de modelos GPT-4 em todos os benchmarks onde uma comparação direta é viável, muitas vezes por uma margem significativa. No popular benchmark MedQA (USMLE), nosso modelo Med-Gemini de melhor desempenho alcança uma precisão SoTA de 91,1%, utilizando uma nova estratégia de pesquisa guiada por incerteza. Em 7 benchmarks multimodais, incluindo os NEJM Image Challenges e MMMU (saúde e medicina), o Med-Gemini supera o GPT-4V com uma margem relativa média de 44,5%. Demonstramos a eficácia das capacidades de contexto longo do Med-Gemini por meio do desempenho SoTA em uma tarefa de recuperação de "agulha no palheiro" em registros de saúde longos e desidentificados e em respostas a perguntas sobre vídeos médicos, superando métodos personalizados anteriores usando apenas aprendizado em contexto. Por fim, o desempenho do Med-Gemini sugere utilidade no mundo real ao superar especialistas humanos em tarefas como resumo de textos médicos, além de demonstrar potencial promissor para diálogo médico multimodal, pesquisa médica e educação. Em conjunto, nossos resultados oferecem evidências convincentes do potencial do Med-Gemini, embora uma avaliação rigorosa adicional seja crucial antes da implantação no mundo real neste domínio crítico para a segurança.
English
Excellence in a wide variety of medical applications poses considerable
challenges for AI, requiring advanced reasoning, access to up-to-date medical
knowledge and understanding of complex multimodal data. Gemini models, with
strong general capabilities in multimodal and long-context reasoning, offer
exciting possibilities in medicine. Building on these core strengths of Gemini,
we introduce Med-Gemini, a family of highly capable multimodal models that are
specialized in medicine with the ability to seamlessly use web search, and that
can be efficiently tailored to novel modalities using custom encoders. We
evaluate Med-Gemini on 14 medical benchmarks, establishing new state-of-the-art
(SoTA) performance on 10 of them, and surpass the GPT-4 model family on every
benchmark where a direct comparison is viable, often by a wide margin. On the
popular MedQA (USMLE) benchmark, our best-performing Med-Gemini model achieves
SoTA performance of 91.1% accuracy, using a novel uncertainty-guided search
strategy. On 7 multimodal benchmarks including NEJM Image Challenges and MMMU
(health & medicine), Med-Gemini improves over GPT-4V by an average relative
margin of 44.5%. We demonstrate the effectiveness of Med-Gemini's long-context
capabilities through SoTA performance on a needle-in-a-haystack retrieval task
from long de-identified health records and medical video question answering,
surpassing prior bespoke methods using only in-context learning. Finally,
Med-Gemini's performance suggests real-world utility by surpassing human
experts on tasks such as medical text summarization, alongside demonstrations
of promising potential for multimodal medical dialogue, medical research and
education. Taken together, our results offer compelling evidence for
Med-Gemini's potential, although further rigorous evaluation will be crucial
before real-world deployment in this safety-critical domain.