Capacità dei Modelli Gemini in Medicina

Abstract

L'eccellenza in una vasta gamma di applicazioni mediche rappresenta una sfida considerevole per l'IA, richiedendo ragionamenti avanzati, accesso a conoscenze mediche aggiornate e comprensione di dati multimodali complessi. I modelli Gemini, con forti capacità generali nel ragionamento multimodale e a contesto lungo, offrono possibilità entusiasmanti in medicina. Basandoci su questi punti di forza fondamentali di Gemini, introduciamo Med-Gemini, una famiglia di modelli multimodali altamente capaci specializzati in medicina, in grado di utilizzare in modo fluido la ricerca web e di essere efficientemente adattati a nuove modalità tramite encoder personalizzati. Valutiamo Med-Gemini su 14 benchmark medici, stabilendo nuove prestazioni state-of-the-art (SoTA) su 10 di essi e superando la famiglia di modelli GPT-4 su ogni benchmark dove un confronto diretto è possibile, spesso con un ampio margine. Sul popolare benchmark MedQA (USMLE), il nostro modello Med-Gemini più performante raggiunge una precisione SoTA del 91,1%, utilizzando una nuova strategia di ricerca guidata dall'incertezza. Su 7 benchmark multimodali, tra cui NEJM Image Challenges e MMMU (salute e medicina), Med-Gemini migliora rispetto a GPT-4V con un margine relativo medio del 44,5%. Dimostriamo l'efficacia delle capacità a contesto lungo di Med-Gemini attraverso prestazioni SoTA in un'attività di recupero "ago in un pagliaio" da lunghi record sanitari anonimizzati e nella risposta a domande basate su video medici, superando metodi specifici precedenti utilizzando solo l'apprendimento in contesto. Infine, le prestazioni di Med-Gemini suggeriscono un'utilità nel mondo reale superando esperti umani in compiti come la sintesi di testi medici, insieme a dimostrazioni di un potenziale promettente per il dialogo multimodale in medicina, la ricerca medica e l'educazione. Nel complesso, i nostri risultati offrono prove convincenti del potenziale di Med-Gemini, sebbene ulteriori valutazioni rigorose saranno cruciali prima del dispiegamento nel mondo reale in questo dominio critico per la sicurezza.

English

Excellence in a wide variety of medical applications poses considerable challenges for AI, requiring advanced reasoning, access to up-to-date medical knowledge and understanding of complex multimodal data. Gemini models, with strong general capabilities in multimodal and long-context reasoning, offer exciting possibilities in medicine. Building on these core strengths of Gemini, we introduce Med-Gemini, a family of highly capable multimodal models that are specialized in medicine with the ability to seamlessly use web search, and that can be efficiently tailored to novel modalities using custom encoders. We evaluate Med-Gemini on 14 medical benchmarks, establishing new state-of-the-art (SoTA) performance on 10 of them, and surpass the GPT-4 model family on every benchmark where a direct comparison is viable, often by a wide margin. On the popular MedQA (USMLE) benchmark, our best-performing Med-Gemini model achieves SoTA performance of 91.1% accuracy, using a novel uncertainty-guided search strategy. On 7 multimodal benchmarks including NEJM Image Challenges and MMMU (health & medicine), Med-Gemini improves over GPT-4V by an average relative margin of 44.5%. We demonstrate the effectiveness of Med-Gemini's long-context capabilities through SoTA performance on a needle-in-a-haystack retrieval task from long de-identified health records and medical video question answering, surpassing prior bespoke methods using only in-context learning. Finally, Med-Gemini's performance suggests real-world utility by surpassing human experts on tasks such as medical text summarization, alongside demonstrations of promising potential for multimodal medical dialogue, medical research and education. Taken together, our results offer compelling evidence for Med-Gemini's potential, although further rigorous evaluation will be crucial before real-world deployment in this safety-critical domain.

Capacità dei Modelli Gemini in Medicina

Capabilities of Gemini Models in Medicine

Abstract

Support