ChatPaper.aiChatPaper

Fähigkeiten von Gemini-Modellen in der Medizin

Capabilities of Gemini Models in Medicine

April 29, 2024
Autoren: Khaled Saab, Tao Tu, Wei-Hung Weng, Ryutaro Tanno, David Stutz, Ellery Wulczyn, Fan Zhang, Tim Strother, Chunjong Park, Elahe Vedadi, Juanma Zambrano Chaves, Szu-Yeu Hu, Mike Schaekermann, Aishwarya Kamath, Yong Cheng, David G. T. Barrett, Cathy Cheung, Basil Mustafa, Anil Palepu, Daniel McDuff, Le Hou, Tomer Golany, Luyang Liu, Jean-baptiste Alayrac, Neil Houlsby, Nenad Tomasev, Jan Freyberg, Charles Lau, Jonas Kemp, Jeremy Lai, Shekoofeh Azizi, Kimberly Kanada, SiWai Man, Kavita Kulkarni, Ruoxi Sun, Siamak Shakeri, Luheng He, Ben Caine, Albert Webson, Natasha Latysheva, Melvin Johnson, Philip Mansfield, Jian Lu, Ehud Rivlin, Jesper Anderson, Bradley Green, Renee Wong, Jonathan Krause, Jonathon Shlens, Ewa Dominowska, S. M. Ali Eslami, Claire Cui, Oriol Vinyals, Koray Kavukcuoglu, James Manyika, Jeff Dean, Demis Hassabis, Yossi Matias, Dale Webster, Joelle Barral, Greg Corrado, Christopher Semturs, S. Sara Mahdavi, Juraj Gottweis, Alan Karthikesalingam, Vivek Natarajan
cs.AI

Zusammenfassung

Exzellenz in einer Vielzahl von medizinischen Anwendungen stellt erhebliche Herausforderungen für KI dar, die fortgeschrittenes Argumentieren, Zugang zu aktuellen medizinischen Kenntnissen und das Verständnis komplexer multimodaler Daten erfordern. Gemini-Modelle, mit starken allgemeinen Fähigkeiten im multimodalen und langen Kontext-Argumentieren, bieten aufregende Möglichkeiten in der Medizin. Aufbauend auf diesen Kernstärken von Gemini stellen wir Med-Gemini vor, eine Familie hochfähiger multimodaler Modelle, die auf Medizin spezialisiert sind und die Fähigkeit besitzen, nahtlos Web-Suche zu nutzen und die effizient an neue Modalitäten mit benutzerdefinierten Encodern angepasst werden können. Wir evaluieren Med-Gemini an 14 medizinischen Benchmarks, etablieren neue Bestleistungen (SoTA) auf 10 von ihnen und übertreffen die GPT-4-Modellfamilie auf jedem Benchmark, wo ein direkter Vergleich möglich ist, oft deutlich. Auf dem beliebten MedQA (USMLE) Benchmark erreicht unser bestes Med-Gemini-Modell eine SoTA-Leistung von 91,1% Genauigkeit, unter Verwendung einer neuartigen Unsicherheits-geführten Suchstrategie. Auf 7 multimodalen Benchmarks, einschließlich NEJM Image Challenges und MMMU (Gesundheit & Medizin), verbessert Med-Gemini die Leistung im Vergleich zu GPT-4V um einen durchschnittlichen relativen Wert von 44,5%. Wir zeigen die Wirksamkeit der langen Kontextfähigkeiten von Med-Gemini durch SoTA-Leistung bei einer Nadel-im-Heuhaufen-Retrieval-Aufgabe aus langen anonymisierten Gesundheitsakten und medizinischer Video-Fragenbeantwortung, wobei frühere maßgeschneiderte Methoden, die nur auf In-Context-Lernen basieren, übertroffen werden. Schließlich legt die Leistung von Med-Gemini nahe, dass es im realen Leben nützlich sein könnte, indem es menschliche Experten in Aufgaben wie medizinische Textzusammenfassung übertrifft, neben Demonstrationen vielversprechenden Potenzials für multimodalen medizinischen Dialog, medizinische Forschung und Bildung. Zusammenfassend bieten unsere Ergebnisse überzeugende Beweise für das Potenzial von Med-Gemini, obwohl weitere strenge Evaluationen entscheidend sein werden, bevor eine Bereitstellung in diesem sicherheitskritischen Bereich erfolgen kann.
English
Excellence in a wide variety of medical applications poses considerable challenges for AI, requiring advanced reasoning, access to up-to-date medical knowledge and understanding of complex multimodal data. Gemini models, with strong general capabilities in multimodal and long-context reasoning, offer exciting possibilities in medicine. Building on these core strengths of Gemini, we introduce Med-Gemini, a family of highly capable multimodal models that are specialized in medicine with the ability to seamlessly use web search, and that can be efficiently tailored to novel modalities using custom encoders. We evaluate Med-Gemini on 14 medical benchmarks, establishing new state-of-the-art (SoTA) performance on 10 of them, and surpass the GPT-4 model family on every benchmark where a direct comparison is viable, often by a wide margin. On the popular MedQA (USMLE) benchmark, our best-performing Med-Gemini model achieves SoTA performance of 91.1% accuracy, using a novel uncertainty-guided search strategy. On 7 multimodal benchmarks including NEJM Image Challenges and MMMU (health & medicine), Med-Gemini improves over GPT-4V by an average relative margin of 44.5%. We demonstrate the effectiveness of Med-Gemini's long-context capabilities through SoTA performance on a needle-in-a-haystack retrieval task from long de-identified health records and medical video question answering, surpassing prior bespoke methods using only in-context learning. Finally, Med-Gemini's performance suggests real-world utility by surpassing human experts on tasks such as medical text summarization, alongside demonstrations of promising potential for multimodal medical dialogue, medical research and education. Taken together, our results offer compelling evidence for Med-Gemini's potential, although further rigorous evaluation will be crucial before real-world deployment in this safety-critical domain.

Summary

AI-Generated Summary

PDF253December 15, 2024