MedGemma Technischer Bericht
MedGemma Technical Report
July 7, 2025
papers.authors: Andrew Sellergren, Sahar Kazemzadeh, Tiam Jaroensri, Atilla Kiraly, Madeleine Traverse, Timo Kohlberger, Shawn Xu, Fayaz Jamil, Cían Hughes, Charles Lau, Justin Chen, Fereshteh Mahvar, Liron Yatziv, Tiffany Chen, Bram Sterling, Stefanie Anna Baby, Susanna Maria Baby, Jeremy Lai, Samuel Schmidgall, Lu Yang, Kejia Chen, Per Bjornsson, Shashir Reddy, Ryan Brush, Kenneth Philbrick, Howard Hu, Howard Yang, Richa Tiwari, Sunny Jansen, Preeti Singh, Yun Liu, Shekoofeh Azizi, Aishwarya Kamath, Johan Ferret, Shreya Pathak, Nino Vieillard, Ramona Merhej, Sarah Perrin, Tatiana Matejovicova, Alexandre Ramé, Morgane Riviere, Louis Rouillard, Thomas Mesnard, Geoffrey Cideron, Jean-bastien Grill, Sabela Ramos, Edouard Yvinec, Michelle Casbon, Elena Buchatskaya, Jean-Baptiste Alayrac, Dmitry, Lepikhin, Vlad Feinberg, Sebastian Borgeaud, Alek Andreev, Cassidy Hardin, Robert Dadashi, Léonard Hussenot, Armand Joulin, Olivier Bachem, Yossi Matias, Katherine Chou, Avinatan Hassidim, Kavi Goel, Clement Farabet, Joelle Barral, Tris Warkentin, Jonathon Shlens, David Fleet, Victor Cotruta, Omar Sanseviero, Gus Martins, Phoebe Kirk, Anand Rao, Shravya Shetty, David F. Steiner, Can Kirmizibayrak, Rory Pilgrim, Daniel Golden, Lin Yang
cs.AI
papers.abstract
Künstliche Intelligenz (KI) hat ein erhebliches Potenzial in der Gesundheitsversorgung, doch ihre Schulung und Implementierung steht vor Herausforderungen aufgrund der vielfältigen Daten, komplexen Aufgaben und der Notwendigkeit, die Privatsphäre zu wahren. Foundation-Modelle, die bei medizinischen Aufgaben gut abschneiden und weniger aufgabenspezifische Anpassungsdaten benötigen, sind entscheidend, um die Entwicklung von KI-Anwendungen im Gesundheitswesen zu beschleunigen. Wir stellen MedGemma vor, eine Sammlung medizinischer Vision-Language-Foundation-Modelle, die auf Gemma 3 4B und 27B basieren. MedGemma zeigt ein fortgeschrittenes medizinisches Verständnis und eine fundierte Argumentation bei Bildern und Texten, übertrifft die Leistung ähnlich großer generativer Modelle deutlich und nähert sich der Leistung aufgabenspezifischer Modelle an, während es die allgemeinen Fähigkeiten der Gemma 3-Basismodelle beibehält. Bei Aufgaben außerhalb der Verteilung erzielt MedGemma eine Verbesserung von 2,6-10 % bei der medizinischen multimodalen Fragebeantwortung, 15,5-18,1 % bei der Klassifizierung von Röntgenbefunden der Brust und 10,8 % bei agentenbasierten Bewertungen im Vergleich zu den Basismodellen. Das Feinabstimmen von MedGemma verbessert die Leistung in Teilbereichen weiter, reduziert Fehler bei der Informationsbeschaffung aus elektronischen Gesundheitsakten um 50 % und erreicht eine vergleichbare Leistung wie bestehende spezialisierte State-of-the-Art-Methoden für die Klassifizierung von Pneumothorax und histopathologischen Patch-Klassifizierungen. Zusätzlich stellen wir MedSigLIP vor, einen medizinisch angepassten Vision-Encoder, der von SigLIP abgeleitet ist. MedSigLIP unterstützt die visuellen Verständnisfähigkeiten von MedGemma und erreicht als Encoder eine vergleichbare oder bessere Leistung als spezialisierte medizinische Bild-Encoder. Zusammengenommen bietet die MedGemma-Sammlung eine solide Grundlage für medizinische Bild- und Textfähigkeiten mit dem Potenzial, die medizinische Forschung und die Entwicklung nachgelagerter Anwendungen erheblich zu beschleunigen. Die MedGemma-Sammlung, einschließlich Tutorials und Modellgewichten, ist unter https://goo.gle/medgemma zu finden.
English
Artificial intelligence (AI) has significant potential in healthcare
applications, but its training and deployment faces challenges due to
healthcare's diverse data, complex tasks, and the need to preserve privacy.
Foundation models that perform well on medical tasks and require less
task-specific tuning data are critical to accelerate the development of
healthcare AI applications. We introduce MedGemma, a collection of medical
vision-language foundation models based on Gemma 3 4B and 27B. MedGemma
demonstrates advanced medical understanding and reasoning on images and text,
significantly exceeding the performance of similar-sized generative models and
approaching the performance of task-specific models, while maintaining the
general capabilities of the Gemma 3 base models. For out-of-distribution tasks,
MedGemma achieves 2.6-10% improvement on medical multimodal question answering,
15.5-18.1% improvement on chest X-ray finding classification, and 10.8%
improvement on agentic evaluations compared to the base models. Fine-tuning
MedGemma further improves performance in subdomains, reducing errors in
electronic health record information retrieval by 50% and reaching comparable
performance to existing specialized state-of-the-art methods for pneumothorax
classification and histopathology patch classification. We additionally
introduce MedSigLIP, a medically-tuned vision encoder derived from SigLIP.
MedSigLIP powers the visual understanding capabilities of MedGemma and as an
encoder achieves comparable or better performance than specialized medical
image encoders. Taken together, the MedGemma collection provides a strong
foundation of medical image and text capabilities, with potential to
significantly accelerate medical research and development of downstream
applications. The MedGemma collection, including tutorials and model weights,
can be found at https://goo.gle/medgemma.