Технический отчет по MedGemma
MedGemma Technical Report
July 7, 2025
Авторы: Andrew Sellergren, Sahar Kazemzadeh, Tiam Jaroensri, Atilla Kiraly, Madeleine Traverse, Timo Kohlberger, Shawn Xu, Fayaz Jamil, Cían Hughes, Charles Lau, Justin Chen, Fereshteh Mahvar, Liron Yatziv, Tiffany Chen, Bram Sterling, Stefanie Anna Baby, Susanna Maria Baby, Jeremy Lai, Samuel Schmidgall, Lu Yang, Kejia Chen, Per Bjornsson, Shashir Reddy, Ryan Brush, Kenneth Philbrick, Howard Hu, Howard Yang, Richa Tiwari, Sunny Jansen, Preeti Singh, Yun Liu, Shekoofeh Azizi, Aishwarya Kamath, Johan Ferret, Shreya Pathak, Nino Vieillard, Ramona Merhej, Sarah Perrin, Tatiana Matejovicova, Alexandre Ramé, Morgane Riviere, Louis Rouillard, Thomas Mesnard, Geoffrey Cideron, Jean-bastien Grill, Sabela Ramos, Edouard Yvinec, Michelle Casbon, Elena Buchatskaya, Jean-Baptiste Alayrac, Dmitry, Lepikhin, Vlad Feinberg, Sebastian Borgeaud, Alek Andreev, Cassidy Hardin, Robert Dadashi, Léonard Hussenot, Armand Joulin, Olivier Bachem, Yossi Matias, Katherine Chou, Avinatan Hassidim, Kavi Goel, Clement Farabet, Joelle Barral, Tris Warkentin, Jonathon Shlens, David Fleet, Victor Cotruta, Omar Sanseviero, Gus Martins, Phoebe Kirk, Anand Rao, Shravya Shetty, David F. Steiner, Can Kirmizibayrak, Rory Pilgrim, Daniel Golden, Lin Yang
cs.AI
Аннотация
Искусственный интеллект (ИИ) обладает значительным потенциалом в медицинских приложениях, однако его обучение и внедрение сталкиваются с трудностями из-за разнообразия медицинских данных, сложности задач и необходимости сохранения конфиденциальности. Фундаментальные модели, которые хорошо справляются с медицинскими задачами и требуют меньше данных для настройки под конкретные задачи, имеют решающее значение для ускорения разработки медицинских приложений на основе ИИ. Мы представляем MedGemma — набор медицинских мультимодальных фундаментальных моделей, основанных на Gemma 3 4B и 27B. MedGemma демонстрирует продвинутое понимание и анализ медицинских изображений и текста, значительно превосходя производительность генеративных моделей аналогичного размера и приближаясь к результатам специализированных моделей, сохраняя при этом общие возможности базовых моделей Gemma 3. Для задач, выходящих за пределы распределения, MedGemma показывает улучшение на 2,6–10% в медицинском мультимодальном ответах на вопросы, на 15,5–18,1% в классификации результатов рентгенографии грудной клетки и на 10,8% в агентских оценках по сравнению с базовыми моделями. Дополнительная настройка MedGemma улучшает производительность в поддоменах, сокращая ошибки в извлечении информации из электронных медицинских записей на 50% и достигая сопоставимых результатов с существующими специализированными передовыми методами для классификации пневмоторакса и классификации гистопатологических срезов. Мы также представляем MedSigLIP — медицински адаптированный визуальный кодировщик, созданный на основе SigLIP. MedSigLIP обеспечивает возможности визуального понимания MedGemma и как кодировщик демонстрирует сопоставимую или лучшую производительность по сравнению со специализированными медицинскими кодировщиками изображений. В совокупности набор MedGemma предоставляет мощную основу для работы с медицинскими изображениями и текстом, что может значительно ускорить медицинские исследования и разработку прикладных решений. Набор MedGemma, включая руководства и веса моделей, доступен по адресу https://goo.gle/medgemma.
English
Artificial intelligence (AI) has significant potential in healthcare
applications, but its training and deployment faces challenges due to
healthcare's diverse data, complex tasks, and the need to preserve privacy.
Foundation models that perform well on medical tasks and require less
task-specific tuning data are critical to accelerate the development of
healthcare AI applications. We introduce MedGemma, a collection of medical
vision-language foundation models based on Gemma 3 4B and 27B. MedGemma
demonstrates advanced medical understanding and reasoning on images and text,
significantly exceeding the performance of similar-sized generative models and
approaching the performance of task-specific models, while maintaining the
general capabilities of the Gemma 3 base models. For out-of-distribution tasks,
MedGemma achieves 2.6-10% improvement on medical multimodal question answering,
15.5-18.1% improvement on chest X-ray finding classification, and 10.8%
improvement on agentic evaluations compared to the base models. Fine-tuning
MedGemma further improves performance in subdomains, reducing errors in
electronic health record information retrieval by 50% and reaching comparable
performance to existing specialized state-of-the-art methods for pneumothorax
classification and histopathology patch classification. We additionally
introduce MedSigLIP, a medically-tuned vision encoder derived from SigLIP.
MedSigLIP powers the visual understanding capabilities of MedGemma and as an
encoder achieves comparable or better performance than specialized medical
image encoders. Taken together, the MedGemma collection provides a strong
foundation of medical image and text capabilities, with potential to
significantly accelerate medical research and development of downstream
applications. The MedGemma collection, including tutorials and model weights,
can be found at https://goo.gle/medgemma.