Возможности моделей Gemini в медицине
Capabilities of Gemini Models in Medicine
April 29, 2024
Авторы: Khaled Saab, Tao Tu, Wei-Hung Weng, Ryutaro Tanno, David Stutz, Ellery Wulczyn, Fan Zhang, Tim Strother, Chunjong Park, Elahe Vedadi, Juanma Zambrano Chaves, Szu-Yeu Hu, Mike Schaekermann, Aishwarya Kamath, Yong Cheng, David G. T. Barrett, Cathy Cheung, Basil Mustafa, Anil Palepu, Daniel McDuff, Le Hou, Tomer Golany, Luyang Liu, Jean-baptiste Alayrac, Neil Houlsby, Nenad Tomasev, Jan Freyberg, Charles Lau, Jonas Kemp, Jeremy Lai, Shekoofeh Azizi, Kimberly Kanada, SiWai Man, Kavita Kulkarni, Ruoxi Sun, Siamak Shakeri, Luheng He, Ben Caine, Albert Webson, Natasha Latysheva, Melvin Johnson, Philip Mansfield, Jian Lu, Ehud Rivlin, Jesper Anderson, Bradley Green, Renee Wong, Jonathan Krause, Jonathon Shlens, Ewa Dominowska, S. M. Ali Eslami, Claire Cui, Oriol Vinyals, Koray Kavukcuoglu, James Manyika, Jeff Dean, Demis Hassabis, Yossi Matias, Dale Webster, Joelle Barral, Greg Corrado, Christopher Semturs, S. Sara Mahdavi, Juraj Gottweis, Alan Karthikesalingam, Vivek Natarajan
cs.AI
Аннотация
Высокий уровень качества в широком спектре медицинских приложений представляет существенные вызовы для искусственного интеллекта, требующие продвинутого рассуждения, доступа к актуальным медицинским знаниям и понимания сложных мультимодальных данных. Модели Gemini, обладающие сильными общими возможностями в мультимодальном и долгосрочном рассуждении, предлагают захватывающие возможности в медицине. Основываясь на этих ключевых сильных сторонах Gemini, мы представляем Med-Gemini, семейство высококвалифицированных мультимодальных моделей, специализированных в медицине с возможностью безупречного использования веб-поиска и эффективной настройки под новые модальности с помощью индивидуальных кодировщиков. Мы оцениваем Med-Gemini на 14 медицинских бенчмарках, устанавливая новые рекорды производительности (SoTA) на 10 из них и превосходим семейство моделей GPT-4 на каждом бенчмарке, где возможно прямое сравнение, часто с большим отрывом. На популярном медицинском бенчмарке MedQA (USMLE) наша лучшая модель Med-Gemini достигает производительности SoTA на уровне 91,1% точности, используя новую стратегию поиска, основанную на неопределенности. На 7 мультимодальных бенчмарках, включая NEJM Image Challenges и MMMU (здоровье и медицина), Med-Gemini улучшает результаты по сравнению с GPT-4V в среднем на 44,5%. Мы демонстрируем эффективность долгосрочных возможностей Med-Gemini через производительность SoTA на задаче поиска "иголки в стоге сена" из длинных деидентифицированных медицинских записей и ответов на вопросы в медицинских видео, превосходя предыдущие специализированные методы, использующие только контекстное обучение. Наконец, производительность Med-Gemini указывает на практическую ценность в реальном мире, превосходя человеческих экспертов в задачах, таких как резюмирование медицинского текста, наряду с демонстрациями многообещающего потенциала для мультимодального медицинского диалога, медицинских исследований и образования. В целом, наши результаты предлагают убедительные доказательства потенциала Med-Gemini, хотя дальнейшая строгая оценка будет критически важна перед внедрением в реальном мире в этой области, где безопасность играет важную роль.
English
Excellence in a wide variety of medical applications poses considerable
challenges for AI, requiring advanced reasoning, access to up-to-date medical
knowledge and understanding of complex multimodal data. Gemini models, with
strong general capabilities in multimodal and long-context reasoning, offer
exciting possibilities in medicine. Building on these core strengths of Gemini,
we introduce Med-Gemini, a family of highly capable multimodal models that are
specialized in medicine with the ability to seamlessly use web search, and that
can be efficiently tailored to novel modalities using custom encoders. We
evaluate Med-Gemini on 14 medical benchmarks, establishing new state-of-the-art
(SoTA) performance on 10 of them, and surpass the GPT-4 model family on every
benchmark where a direct comparison is viable, often by a wide margin. On the
popular MedQA (USMLE) benchmark, our best-performing Med-Gemini model achieves
SoTA performance of 91.1% accuracy, using a novel uncertainty-guided search
strategy. On 7 multimodal benchmarks including NEJM Image Challenges and MMMU
(health & medicine), Med-Gemini improves over GPT-4V by an average relative
margin of 44.5%. We demonstrate the effectiveness of Med-Gemini's long-context
capabilities through SoTA performance on a needle-in-a-haystack retrieval task
from long de-identified health records and medical video question answering,
surpassing prior bespoke methods using only in-context learning. Finally,
Med-Gemini's performance suggests real-world utility by surpassing human
experts on tasks such as medical text summarization, alongside demonstrations
of promising potential for multimodal medical dialogue, medical research and
education. Taken together, our results offer compelling evidence for
Med-Gemini's potential, although further rigorous evaluation will be crucial
before real-world deployment in this safety-critical domain.Summary
AI-Generated Summary