ChatPaper.aiChatPaper

ジェミニモデルの医療分野における能力

Capabilities of Gemini Models in Medicine

April 29, 2024
著者: Khaled Saab, Tao Tu, Wei-Hung Weng, Ryutaro Tanno, David Stutz, Ellery Wulczyn, Fan Zhang, Tim Strother, Chunjong Park, Elahe Vedadi, Juanma Zambrano Chaves, Szu-Yeu Hu, Mike Schaekermann, Aishwarya Kamath, Yong Cheng, David G. T. Barrett, Cathy Cheung, Basil Mustafa, Anil Palepu, Daniel McDuff, Le Hou, Tomer Golany, Luyang Liu, Jean-baptiste Alayrac, Neil Houlsby, Nenad Tomasev, Jan Freyberg, Charles Lau, Jonas Kemp, Jeremy Lai, Shekoofeh Azizi, Kimberly Kanada, SiWai Man, Kavita Kulkarni, Ruoxi Sun, Siamak Shakeri, Luheng He, Ben Caine, Albert Webson, Natasha Latysheva, Melvin Johnson, Philip Mansfield, Jian Lu, Ehud Rivlin, Jesper Anderson, Bradley Green, Renee Wong, Jonathan Krause, Jonathon Shlens, Ewa Dominowska, S. M. Ali Eslami, Claire Cui, Oriol Vinyals, Koray Kavukcuoglu, James Manyika, Jeff Dean, Demis Hassabis, Yossi Matias, Dale Webster, Joelle Barral, Greg Corrado, Christopher Semturs, S. Sara Mahdavi, Juraj Gottweis, Alan Karthikesalingam, Vivek Natarajan
cs.AI

要旨

多様な医療応用における卓越性は、AIにとって大きな課題を提起し、高度な推論能力、最新の医療知識へのアクセス、複雑なマルチモーダルデータの理解を必要とします。マルチモーダルおよび長文脈推論において強力な汎用能力を持つGeminiモデルは、医療分野でエキサイティングな可能性を提供します。Geminiのこれらのコア強みを基盤として、我々はMed-Geminiを紹介します。これは、ウェブ検索をシームレスに利用でき、カスタムエンコーダを使用して新しいモダリティに効率的に適応可能な、医療に特化した高度なマルチモーダルモデルのファミリーです。Med-Geminiを14の医療ベンチマークで評価し、そのうち10で新たな最先端(SoTA)性能を確立し、直接比較が可能なすべてのベンチマークでGPT-4モデルファミリーを上回り、しばしば大幅な差をつけました。人気のあるMedQA(USMLE)ベンチマークでは、最良のMed-Geminiモデルが不確実性誘導検索戦略を使用して91.1%の精度でSoTA性能を達成しました。NEJM Image ChallengesやMMMU(健康・医学)を含む7つのマルチモーダルベンチマークでは、Med-GeminiはGPT-4Vに対して平均44.5%の相対的な差で改善を示しました。長文脈能力の有効性を、長い匿名化された健康記録からの針探し検索タスクや医療ビデオ質問応答におけるSoTA性能を通じて実証し、従来の専用手法を文脈内学習のみで上回りました。最後に、Med-Geminiの性能は、医療テキスト要約などのタスクで人間の専門家を上回り、マルチモーダル医療対話、医療研究、教育における有望な潜在能力を示すことで、実世界での有用性を示唆しています。全体として、我々の結果はMed-Geminiの潜在能力を強く示唆していますが、この安全性が重要な領域での実世界での展開の前に、さらなる厳格な評価が不可欠です。
English
Excellence in a wide variety of medical applications poses considerable challenges for AI, requiring advanced reasoning, access to up-to-date medical knowledge and understanding of complex multimodal data. Gemini models, with strong general capabilities in multimodal and long-context reasoning, offer exciting possibilities in medicine. Building on these core strengths of Gemini, we introduce Med-Gemini, a family of highly capable multimodal models that are specialized in medicine with the ability to seamlessly use web search, and that can be efficiently tailored to novel modalities using custom encoders. We evaluate Med-Gemini on 14 medical benchmarks, establishing new state-of-the-art (SoTA) performance on 10 of them, and surpass the GPT-4 model family on every benchmark where a direct comparison is viable, often by a wide margin. On the popular MedQA (USMLE) benchmark, our best-performing Med-Gemini model achieves SoTA performance of 91.1% accuracy, using a novel uncertainty-guided search strategy. On 7 multimodal benchmarks including NEJM Image Challenges and MMMU (health & medicine), Med-Gemini improves over GPT-4V by an average relative margin of 44.5%. We demonstrate the effectiveness of Med-Gemini's long-context capabilities through SoTA performance on a needle-in-a-haystack retrieval task from long de-identified health records and medical video question answering, surpassing prior bespoke methods using only in-context learning. Finally, Med-Gemini's performance suggests real-world utility by surpassing human experts on tasks such as medical text summarization, alongside demonstrations of promising potential for multimodal medical dialogue, medical research and education. Taken together, our results offer compelling evidence for Med-Gemini's potential, although further rigorous evaluation will be crucial before real-world deployment in this safety-critical domain.

Summary

AI-Generated Summary

PDF253December 15, 2024