ChatPaper.aiChatPaper

Capacités des modèles Gemini en médecine

Capabilities of Gemini Models in Medicine

April 29, 2024
Auteurs: Khaled Saab, Tao Tu, Wei-Hung Weng, Ryutaro Tanno, David Stutz, Ellery Wulczyn, Fan Zhang, Tim Strother, Chunjong Park, Elahe Vedadi, Juanma Zambrano Chaves, Szu-Yeu Hu, Mike Schaekermann, Aishwarya Kamath, Yong Cheng, David G. T. Barrett, Cathy Cheung, Basil Mustafa, Anil Palepu, Daniel McDuff, Le Hou, Tomer Golany, Luyang Liu, Jean-baptiste Alayrac, Neil Houlsby, Nenad Tomasev, Jan Freyberg, Charles Lau, Jonas Kemp, Jeremy Lai, Shekoofeh Azizi, Kimberly Kanada, SiWai Man, Kavita Kulkarni, Ruoxi Sun, Siamak Shakeri, Luheng He, Ben Caine, Albert Webson, Natasha Latysheva, Melvin Johnson, Philip Mansfield, Jian Lu, Ehud Rivlin, Jesper Anderson, Bradley Green, Renee Wong, Jonathan Krause, Jonathon Shlens, Ewa Dominowska, S. M. Ali Eslami, Claire Cui, Oriol Vinyals, Koray Kavukcuoglu, James Manyika, Jeff Dean, Demis Hassabis, Yossi Matias, Dale Webster, Joelle Barral, Greg Corrado, Christopher Semturs, S. Sara Mahdavi, Juraj Gottweis, Alan Karthikesalingam, Vivek Natarajan
cs.AI

Résumé

L'excellence dans une grande variété d'applications médicales représente un défi considérable pour l'IA, nécessitant un raisonnement avancé, un accès à des connaissances médicales à jour et une compréhension de données multimodales complexes. Les modèles Gemini, dotés de solides capacités générales en raisonnement multimodal et à contexte étendu, offrent des perspectives prometteuses dans le domaine médical. En s'appuyant sur ces atouts fondamentaux de Gemini, nous présentons Med-Gemini, une famille de modèles multimodaux hautement performants spécialisés en médecine, capables d'utiliser de manière fluide la recherche sur le web et pouvant être efficacement adaptés à de nouvelles modalités grâce à des encodeurs personnalisés. Nous évaluons Med-Gemini sur 14 benchmarks médicaux, établissant de nouvelles performances de pointe (state-of-the-art, SoTA) sur 10 d'entre eux, et surpassons la famille de modèles GPT-4 sur chaque benchmark où une comparaison directe est possible, souvent avec une marge significative. Sur le benchmark populaire MedQA (USMLE), notre modèle Med-Gemini le plus performant atteint une précision de 91,1 %, grâce à une nouvelle stratégie de recherche guidée par l'incertitude. Sur 7 benchmarks multimodaux, dont les NEJM Image Challenges et MMMU (santé et médecine), Med-Gemini améliore les performances de GPT-4V avec une marge relative moyenne de 44,5 %. Nous démontrons l'efficacité des capacités de contexte étendu de Med-Gemini grâce à des performances SoTA sur une tâche de recherche d'aiguille dans une botte de foin dans de longs dossiers de santé anonymisés et sur des questions-réponses basées sur des vidéos médicales, surpassant les méthodes spécialisées antérieures en utilisant uniquement l'apprentissage en contexte. Enfin, les performances de Med-Gemini suggèrent une utilité pratique en surpassant les experts humains sur des tâches telles que la synthèse de textes médicaux, tout en démontrant un potentiel prometteur pour le dialogue médical multimodal, la recherche médicale et l'éducation. Pris ensemble, nos résultats offrent des preuves convaincantes du potentiel de Med-Gemini, bien qu'une évaluation rigoureuse supplémentaire sera cruciale avant un déploiement réel dans ce domaine critique pour la sécurité.
English
Excellence in a wide variety of medical applications poses considerable challenges for AI, requiring advanced reasoning, access to up-to-date medical knowledge and understanding of complex multimodal data. Gemini models, with strong general capabilities in multimodal and long-context reasoning, offer exciting possibilities in medicine. Building on these core strengths of Gemini, we introduce Med-Gemini, a family of highly capable multimodal models that are specialized in medicine with the ability to seamlessly use web search, and that can be efficiently tailored to novel modalities using custom encoders. We evaluate Med-Gemini on 14 medical benchmarks, establishing new state-of-the-art (SoTA) performance on 10 of them, and surpass the GPT-4 model family on every benchmark where a direct comparison is viable, often by a wide margin. On the popular MedQA (USMLE) benchmark, our best-performing Med-Gemini model achieves SoTA performance of 91.1% accuracy, using a novel uncertainty-guided search strategy. On 7 multimodal benchmarks including NEJM Image Challenges and MMMU (health & medicine), Med-Gemini improves over GPT-4V by an average relative margin of 44.5%. We demonstrate the effectiveness of Med-Gemini's long-context capabilities through SoTA performance on a needle-in-a-haystack retrieval task from long de-identified health records and medical video question answering, surpassing prior bespoke methods using only in-context learning. Finally, Med-Gemini's performance suggests real-world utility by surpassing human experts on tasks such as medical text summarization, alongside demonstrations of promising potential for multimodal medical dialogue, medical research and education. Taken together, our results offer compelling evidence for Med-Gemini's potential, although further rigorous evaluation will be crucial before real-world deployment in this safety-critical domain.

Summary

AI-Generated Summary

PDF253December 15, 2024