Rapport Technique de MedGemma
MedGemma Technical Report
July 7, 2025
papers.authors: Andrew Sellergren, Sahar Kazemzadeh, Tiam Jaroensri, Atilla Kiraly, Madeleine Traverse, Timo Kohlberger, Shawn Xu, Fayaz Jamil, Cían Hughes, Charles Lau, Justin Chen, Fereshteh Mahvar, Liron Yatziv, Tiffany Chen, Bram Sterling, Stefanie Anna Baby, Susanna Maria Baby, Jeremy Lai, Samuel Schmidgall, Lu Yang, Kejia Chen, Per Bjornsson, Shashir Reddy, Ryan Brush, Kenneth Philbrick, Howard Hu, Howard Yang, Richa Tiwari, Sunny Jansen, Preeti Singh, Yun Liu, Shekoofeh Azizi, Aishwarya Kamath, Johan Ferret, Shreya Pathak, Nino Vieillard, Ramona Merhej, Sarah Perrin, Tatiana Matejovicova, Alexandre Ramé, Morgane Riviere, Louis Rouillard, Thomas Mesnard, Geoffrey Cideron, Jean-bastien Grill, Sabela Ramos, Edouard Yvinec, Michelle Casbon, Elena Buchatskaya, Jean-Baptiste Alayrac, Dmitry, Lepikhin, Vlad Feinberg, Sebastian Borgeaud, Alek Andreev, Cassidy Hardin, Robert Dadashi, Léonard Hussenot, Armand Joulin, Olivier Bachem, Yossi Matias, Katherine Chou, Avinatan Hassidim, Kavi Goel, Clement Farabet, Joelle Barral, Tris Warkentin, Jonathon Shlens, David Fleet, Victor Cotruta, Omar Sanseviero, Gus Martins, Phoebe Kirk, Anand Rao, Shravya Shetty, David F. Steiner, Can Kirmizibayrak, Rory Pilgrim, Daniel Golden, Lin Yang
cs.AI
papers.abstract
L'intelligence artificielle (IA) possède un potentiel significatif dans les applications de santé, mais son entraînement et son déploiement rencontrent des défis en raison de la diversité des données médicales, de la complexité des tâches et de la nécessité de préserver la confidentialité. Les modèles de base qui excellent dans les tâches médicales et nécessitent moins de données d'ajustement spécifiques à une tâche sont essentiels pour accélérer le développement des applications d'IA en santé. Nous présentons MedGemma, une collection de modèles de base vision-langage médicaux basés sur Gemma 3 4B et 27B. MedGemma démontre une compréhension et un raisonnement médicaux avancés sur les images et le texte, surpassant significativement les performances des modèles génératifs de taille similaire et approchant les performances des modèles spécifiques à une tâche, tout en conservant les capacités générales des modèles de base Gemma 3. Pour les tâches hors distribution, MedGemma obtient une amélioration de 2,6 à 10 % sur les questions-réponses multimodales médicales, de 15,5 à 18,1 % sur la classification des anomalies radiologiques thoraciques, et de 10,8 % sur les évaluations agentiques par rapport aux modèles de base. Le fine-tuning de MedGemma améliore encore les performances dans les sous-domaines, réduisant les erreurs dans la récupération d'informations des dossiers médicaux électroniques de 50 % et atteignant des performances comparables aux méthodes spécialisées de pointe existantes pour la classification du pneumothorax et la classification des patchs histopathologiques. Nous introduisons également MedSigLIP, un encodeur visuel adapté au domaine médical dérivé de SigLIP. MedSigLIP alimente les capacités de compréhension visuelle de MedGemma et, en tant qu'encodeur, atteint des performances comparables ou supérieures à celles des encodeurs d'images médicales spécialisés. Ensemble, la collection MedGemma fournit une base solide de capacités en imagerie et en texte médical, avec le potentiel d'accélérer significativement la recherche médicale et le développement d'applications en aval. La collection MedGemma, incluant des tutoriels et les poids des modèles, est disponible à l'adresse suivante : https://goo.gle/medgemma.
English
Artificial intelligence (AI) has significant potential in healthcare
applications, but its training and deployment faces challenges due to
healthcare's diverse data, complex tasks, and the need to preserve privacy.
Foundation models that perform well on medical tasks and require less
task-specific tuning data are critical to accelerate the development of
healthcare AI applications. We introduce MedGemma, a collection of medical
vision-language foundation models based on Gemma 3 4B and 27B. MedGemma
demonstrates advanced medical understanding and reasoning on images and text,
significantly exceeding the performance of similar-sized generative models and
approaching the performance of task-specific models, while maintaining the
general capabilities of the Gemma 3 base models. For out-of-distribution tasks,
MedGemma achieves 2.6-10% improvement on medical multimodal question answering,
15.5-18.1% improvement on chest X-ray finding classification, and 10.8%
improvement on agentic evaluations compared to the base models. Fine-tuning
MedGemma further improves performance in subdomains, reducing errors in
electronic health record information retrieval by 50% and reaching comparable
performance to existing specialized state-of-the-art methods for pneumothorax
classification and histopathology patch classification. We additionally
introduce MedSigLIP, a medically-tuned vision encoder derived from SigLIP.
MedSigLIP powers the visual understanding capabilities of MedGemma and as an
encoder achieves comparable or better performance than specialized medical
image encoders. Taken together, the MedGemma collection provides a strong
foundation of medical image and text capabilities, with potential to
significantly accelerate medical research and development of downstream
applications. The MedGemma collection, including tutorials and model weights,
can be found at https://goo.gle/medgemma.