Mogelijkheden van Gemini-modellen in de geneeskunde
Capabilities of Gemini Models in Medicine
April 29, 2024
Auteurs: Khaled Saab, Tao Tu, Wei-Hung Weng, Ryutaro Tanno, David Stutz, Ellery Wulczyn, Fan Zhang, Tim Strother, Chunjong Park, Elahe Vedadi, Juanma Zambrano Chaves, Szu-Yeu Hu, Mike Schaekermann, Aishwarya Kamath, Yong Cheng, David G. T. Barrett, Cathy Cheung, Basil Mustafa, Anil Palepu, Daniel McDuff, Le Hou, Tomer Golany, Luyang Liu, Jean-baptiste Alayrac, Neil Houlsby, Nenad Tomasev, Jan Freyberg, Charles Lau, Jonas Kemp, Jeremy Lai, Shekoofeh Azizi, Kimberly Kanada, SiWai Man, Kavita Kulkarni, Ruoxi Sun, Siamak Shakeri, Luheng He, Ben Caine, Albert Webson, Natasha Latysheva, Melvin Johnson, Philip Mansfield, Jian Lu, Ehud Rivlin, Jesper Anderson, Bradley Green, Renee Wong, Jonathan Krause, Jonathon Shlens, Ewa Dominowska, S. M. Ali Eslami, Claire Cui, Oriol Vinyals, Koray Kavukcuoglu, James Manyika, Jeff Dean, Demis Hassabis, Yossi Matias, Dale Webster, Joelle Barral, Greg Corrado, Christopher Semturs, S. Sara Mahdavi, Juraj Gottweis, Alan Karthikesalingam, Vivek Natarajan
cs.AI
Samenvatting
Uitmuntendheid in een breed scala van medische toepassingen stelt AI voor aanzienlijke uitdagingen, waarvoor geavanceerd redeneervermogen, toegang tot actuele medische kennis en begrip van complexe multimodale gegevens nodig zijn. Gemini-modellen, met hun sterke algemene capaciteiten in multimodaal en lang-context redeneren, bieden spannende mogelijkheden in de geneeskunde. Voortbouwend op deze kernsterktes van Gemini, introduceren we Med-Gemini, een familie van zeer capabele multimodale modellen die gespecialiseerd zijn in de geneeskunde, met de mogelijkheid om naadloos gebruik te maken van webzoekopdrachten, en die efficiënt kunnen worden aangepast aan nieuwe modaliteiten met behulp van aangepaste encoders. We evalueren Med-Gemini op 14 medische benchmarks, waarbij we nieuwe state-of-the-art (SoTA) prestaties vaststellen op 10 daarvan, en overtreffen de GPT-4-modellenfamilie op elke benchmark waar een directe vergelijking mogelijk is, vaak met een aanzienlijke marge. Op de populaire MedQA (USMLE) benchmark behaalt ons best presterende Med-Gemini-model een SoTA-prestatie van 91,1% nauwkeurigheid, met behulp van een nieuwe onzekerheidsgeleide zoekstrategie. Op 7 multimodale benchmarks, waaronder NEJM Image Challenges en MMMU (gezondheid & geneeskunde), verbetert Med-Gemini ten opzichte van GPT-4V met een gemiddeld relatief verschil van 44,5%. We demonstreren de effectiviteit van Med-Gemini's lang-context capaciteiten door SoTA-prestaties op een naald-in-een-hooiberg zoektaak uit lange geanonimiseerde gezondheidsdossiers en medische video-vraagbeantwoording, waarbij we eerdere op maat gemaakte methoden overtreffen met alleen in-context leren. Ten slotte suggereert de prestaties van Med-Gemini praktische bruikbaarheid door menselijke experts te overtreffen op taken zoals medische tekstsamenvatting, naast demonstraties van veelbelovend potentieel voor multimodale medische dialoog, medisch onderzoek en onderwijs. Samengevat bieden onze resultaten overtuigend bewijs voor het potentieel van Med-Gemini, hoewel verdere rigoureuze evaluatie cruciaal zal zijn voordat het in de praktijk wordt ingezet in dit veiligheidskritieke domein.
English
Excellence in a wide variety of medical applications poses considerable
challenges for AI, requiring advanced reasoning, access to up-to-date medical
knowledge and understanding of complex multimodal data. Gemini models, with
strong general capabilities in multimodal and long-context reasoning, offer
exciting possibilities in medicine. Building on these core strengths of Gemini,
we introduce Med-Gemini, a family of highly capable multimodal models that are
specialized in medicine with the ability to seamlessly use web search, and that
can be efficiently tailored to novel modalities using custom encoders. We
evaluate Med-Gemini on 14 medical benchmarks, establishing new state-of-the-art
(SoTA) performance on 10 of them, and surpass the GPT-4 model family on every
benchmark where a direct comparison is viable, often by a wide margin. On the
popular MedQA (USMLE) benchmark, our best-performing Med-Gemini model achieves
SoTA performance of 91.1% accuracy, using a novel uncertainty-guided search
strategy. On 7 multimodal benchmarks including NEJM Image Challenges and MMMU
(health & medicine), Med-Gemini improves over GPT-4V by an average relative
margin of 44.5%. We demonstrate the effectiveness of Med-Gemini's long-context
capabilities through SoTA performance on a needle-in-a-haystack retrieval task
from long de-identified health records and medical video question answering,
surpassing prior bespoke methods using only in-context learning. Finally,
Med-Gemini's performance suggests real-world utility by surpassing human
experts on tasks such as medical text summarization, alongside demonstrations
of promising potential for multimodal medical dialogue, medical research and
education. Taken together, our results offer compelling evidence for
Med-Gemini's potential, although further rigorous evaluation will be crucial
before real-world deployment in this safety-critical domain.