ChatPaper.aiChatPaper

의학 분야에서 Gemini 모델의 능력

Capabilities of Gemini Models in Medicine

April 29, 2024
저자: Khaled Saab, Tao Tu, Wei-Hung Weng, Ryutaro Tanno, David Stutz, Ellery Wulczyn, Fan Zhang, Tim Strother, Chunjong Park, Elahe Vedadi, Juanma Zambrano Chaves, Szu-Yeu Hu, Mike Schaekermann, Aishwarya Kamath, Yong Cheng, David G. T. Barrett, Cathy Cheung, Basil Mustafa, Anil Palepu, Daniel McDuff, Le Hou, Tomer Golany, Luyang Liu, Jean-baptiste Alayrac, Neil Houlsby, Nenad Tomasev, Jan Freyberg, Charles Lau, Jonas Kemp, Jeremy Lai, Shekoofeh Azizi, Kimberly Kanada, SiWai Man, Kavita Kulkarni, Ruoxi Sun, Siamak Shakeri, Luheng He, Ben Caine, Albert Webson, Natasha Latysheva, Melvin Johnson, Philip Mansfield, Jian Lu, Ehud Rivlin, Jesper Anderson, Bradley Green, Renee Wong, Jonathan Krause, Jonathon Shlens, Ewa Dominowska, S. M. Ali Eslami, Claire Cui, Oriol Vinyals, Koray Kavukcuoglu, James Manyika, Jeff Dean, Demis Hassabis, Yossi Matias, Dale Webster, Joelle Barral, Greg Corrado, Christopher Semturs, S. Sara Mahdavi, Juraj Gottweis, Alan Karthikesalingam, Vivek Natarajan
cs.AI

초록

다양한 의료 응용 분야에서의 탁월함은 AI에게 상당한 도전 과제를 제시하며, 고급 추론 능력, 최신 의학 지식에 대한 접근, 복잡한 다중 모드 데이터에 대한 이해를 요구합니다. 다중 모드 및 장문맥 추론에서 강력한 일반 능력을 갖춘 Gemini 모델들은 의학 분야에서 흥미로운 가능성을 제공합니다. 이러한 Gemini의 핵심 강점을 기반으로, 우리는 웹 검색을 원활하게 활용할 수 있고 맞춤형 인코더를 사용하여 새로운 모드에 효율적으로 적응 가능한, 의학에 특화된 고성능 다중 모드 모델군인 Med-Gemini를 소개합니다. 우리는 Med-Gemini를 14개의 의료 벤치마크에서 평가하여, 그 중 10개에서 새로운 최첨단(SoTA) 성능을 달성했으며, 직접 비교가 가능한 모든 벤치마크에서 GPT-4 모델군을 크게 앞질렀습니다. 인기 있는 MedQA(USMLE) 벤치마크에서, 우리의 최고 성능 Med-Gemini 모델은 불확실성 기반 검색 전략을 사용하여 91.1% 정확도의 SoTA 성능을 달성했습니다. NEJM 이미지 챌린지와 MMMU(건강 및 의학)를 포함한 7개의 다중 모드 벤치마크에서, Med-Gemini는 GPT-4V 대비 평균 44.5%의 상대적 차이로 개선되었습니다. 우리는 장문맥 능력의 효과를 입증하기 위해, 장기간 비식별화된 건강 기록과 의료 영상 질의응답에서의 바늘 찾기 검색 과제에서 SoTA 성능을 달성했으며, 이전의 맞춤형 방법들을 단순히 문맥 학습만으로 능가했습니다. 마지막으로, Med-Gemini의 성능은 의료 텍스트 요약과 같은 과제에서 인간 전문가를 능가하며, 다중 모드 의료 대화, 의학 연구 및 교육에서의 유망한 잠재력을 보여줌으로써 실제 세계에서의 유용성을 시사합니다. 종합적으로, 우리의 결과는 Med-Gemini의 잠재력에 대한 설득력 있는 증거를 제공하지만, 이 안전이 중요한 분야에서의 실제 배포 전에 추가적인 엄격한 평가가 필수적일 것입니다.
English
Excellence in a wide variety of medical applications poses considerable challenges for AI, requiring advanced reasoning, access to up-to-date medical knowledge and understanding of complex multimodal data. Gemini models, with strong general capabilities in multimodal and long-context reasoning, offer exciting possibilities in medicine. Building on these core strengths of Gemini, we introduce Med-Gemini, a family of highly capable multimodal models that are specialized in medicine with the ability to seamlessly use web search, and that can be efficiently tailored to novel modalities using custom encoders. We evaluate Med-Gemini on 14 medical benchmarks, establishing new state-of-the-art (SoTA) performance on 10 of them, and surpass the GPT-4 model family on every benchmark where a direct comparison is viable, often by a wide margin. On the popular MedQA (USMLE) benchmark, our best-performing Med-Gemini model achieves SoTA performance of 91.1% accuracy, using a novel uncertainty-guided search strategy. On 7 multimodal benchmarks including NEJM Image Challenges and MMMU (health & medicine), Med-Gemini improves over GPT-4V by an average relative margin of 44.5%. We demonstrate the effectiveness of Med-Gemini's long-context capabilities through SoTA performance on a needle-in-a-haystack retrieval task from long de-identified health records and medical video question answering, surpassing prior bespoke methods using only in-context learning. Finally, Med-Gemini's performance suggests real-world utility by surpassing human experts on tasks such as medical text summarization, alongside demonstrations of promising potential for multimodal medical dialogue, medical research and education. Taken together, our results offer compelling evidence for Med-Gemini's potential, although further rigorous evaluation will be crucial before real-world deployment in this safety-critical domain.

Summary

AI-Generated Summary

PDF253December 15, 2024