MedGemma Technisch Rapport
MedGemma Technical Report
July 7, 2025
Auteurs: Andrew Sellergren, Sahar Kazemzadeh, Tiam Jaroensri, Atilla Kiraly, Madeleine Traverse, Timo Kohlberger, Shawn Xu, Fayaz Jamil, Cían Hughes, Charles Lau, Justin Chen, Fereshteh Mahvar, Liron Yatziv, Tiffany Chen, Bram Sterling, Stefanie Anna Baby, Susanna Maria Baby, Jeremy Lai, Samuel Schmidgall, Lu Yang, Kejia Chen, Per Bjornsson, Shashir Reddy, Ryan Brush, Kenneth Philbrick, Howard Hu, Howard Yang, Richa Tiwari, Sunny Jansen, Preeti Singh, Yun Liu, Shekoofeh Azizi, Aishwarya Kamath, Johan Ferret, Shreya Pathak, Nino Vieillard, Ramona Merhej, Sarah Perrin, Tatiana Matejovicova, Alexandre Ramé, Morgane Riviere, Louis Rouillard, Thomas Mesnard, Geoffrey Cideron, Jean-bastien Grill, Sabela Ramos, Edouard Yvinec, Michelle Casbon, Elena Buchatskaya, Jean-Baptiste Alayrac, Dmitry, Lepikhin, Vlad Feinberg, Sebastian Borgeaud, Alek Andreev, Cassidy Hardin, Robert Dadashi, Léonard Hussenot, Armand Joulin, Olivier Bachem, Yossi Matias, Katherine Chou, Avinatan Hassidim, Kavi Goel, Clement Farabet, Joelle Barral, Tris Warkentin, Jonathon Shlens, David Fleet, Victor Cotruta, Omar Sanseviero, Gus Martins, Phoebe Kirk, Anand Rao, Shravya Shetty, David F. Steiner, Can Kirmizibayrak, Rory Pilgrim, Daniel Golden, Lin Yang
cs.AI
Samenvatting
Kunstmatige intelligentie (AI) heeft aanzienlijk potentieel in gezondheidszorgtoepassingen, maar de training en implementatie ervan worden geconfronteerd met uitdagingen vanwege de diverse gegevens in de gezondheidszorg, complexe taken en de noodzaak om privacy te waarborgen. Foundation-modellen die goed presteren op medische taken en minder taakspecifieke afstemmingsgegevens vereisen, zijn cruciaal om de ontwikkeling van AI-toepassingen in de gezondheidszorg te versnellen. Wij introduceren MedGemma, een verzameling medische vision-language foundation-modellen gebaseerd op Gemma 3 4B en 27B. MedGemma toont geavanceerd medisch begrip en redeneren op afbeeldingen en tekst, waarbij het de prestaties van vergelijkbare generatieve modellen aanzienlijk overtreft en de prestaties van taakspecifieke modellen benadert, terwijl de algemene mogelijkheden van de Gemma 3-basismodellen behouden blijven. Voor taken buiten de distributie bereikt MedGemma een verbetering van 2,6-10% op medische multimodale vraagbeantwoording, 15,5-18,1% verbetering op classificatie van thoraxfoto-bevindingen en 10,8% verbetering op agentische evaluaties in vergelijking met de basismodellen. Fine-tuning van MedGemma verbetert de prestaties verder in subdomeinen, waarbij fouten in het ophalen van elektronische gezondheidsdossiers met 50% worden verminderd en vergelijkbare prestaties worden bereikt als bestaande gespecialiseerde state-of-the-art methoden voor pneumothoraxclassificatie en histopathologie patchclassificatie. We introduceren ook MedSigLIP, een medisch afgestemde vision-encoder afgeleid van SigLIP. MedSigLIP ondersteunt de visuele begripsmogelijkheden van MedGemma en presteert als encoder vergelijkbaar of beter dan gespecialiseerde medische beeldencoders. Samengevat biedt de MedGemma-collectie een sterke basis van medische beeld- en tekstmogelijkheden, met het potentieel om medisch onderzoek en de ontwikkeling van downstream-toepassingen aanzienlijk te versnellen. De MedGemma-collectie, inclusief tutorials en modelgewichten, is te vinden op https://goo.gle/medgemma.
English
Artificial intelligence (AI) has significant potential in healthcare
applications, but its training and deployment faces challenges due to
healthcare's diverse data, complex tasks, and the need to preserve privacy.
Foundation models that perform well on medical tasks and require less
task-specific tuning data are critical to accelerate the development of
healthcare AI applications. We introduce MedGemma, a collection of medical
vision-language foundation models based on Gemma 3 4B and 27B. MedGemma
demonstrates advanced medical understanding and reasoning on images and text,
significantly exceeding the performance of similar-sized generative models and
approaching the performance of task-specific models, while maintaining the
general capabilities of the Gemma 3 base models. For out-of-distribution tasks,
MedGemma achieves 2.6-10% improvement on medical multimodal question answering,
15.5-18.1% improvement on chest X-ray finding classification, and 10.8%
improvement on agentic evaluations compared to the base models. Fine-tuning
MedGemma further improves performance in subdomains, reducing errors in
electronic health record information retrieval by 50% and reaching comparable
performance to existing specialized state-of-the-art methods for pneumothorax
classification and histopathology patch classification. We additionally
introduce MedSigLIP, a medically-tuned vision encoder derived from SigLIP.
MedSigLIP powers the visual understanding capabilities of MedGemma and as an
encoder achieves comparable or better performance than specialized medical
image encoders. Taken together, the MedGemma collection provides a strong
foundation of medical image and text capabilities, with potential to
significantly accelerate medical research and development of downstream
applications. The MedGemma collection, including tutorials and model weights,
can be found at https://goo.gle/medgemma.