Relatório Técnico do MedGemma
MedGemma Technical Report
July 7, 2025
Autores: Andrew Sellergren, Sahar Kazemzadeh, Tiam Jaroensri, Atilla Kiraly, Madeleine Traverse, Timo Kohlberger, Shawn Xu, Fayaz Jamil, Cían Hughes, Charles Lau, Justin Chen, Fereshteh Mahvar, Liron Yatziv, Tiffany Chen, Bram Sterling, Stefanie Anna Baby, Susanna Maria Baby, Jeremy Lai, Samuel Schmidgall, Lu Yang, Kejia Chen, Per Bjornsson, Shashir Reddy, Ryan Brush, Kenneth Philbrick, Howard Hu, Howard Yang, Richa Tiwari, Sunny Jansen, Preeti Singh, Yun Liu, Shekoofeh Azizi, Aishwarya Kamath, Johan Ferret, Shreya Pathak, Nino Vieillard, Ramona Merhej, Sarah Perrin, Tatiana Matejovicova, Alexandre Ramé, Morgane Riviere, Louis Rouillard, Thomas Mesnard, Geoffrey Cideron, Jean-bastien Grill, Sabela Ramos, Edouard Yvinec, Michelle Casbon, Elena Buchatskaya, Jean-Baptiste Alayrac, Dmitry, Lepikhin, Vlad Feinberg, Sebastian Borgeaud, Alek Andreev, Cassidy Hardin, Robert Dadashi, Léonard Hussenot, Armand Joulin, Olivier Bachem, Yossi Matias, Katherine Chou, Avinatan Hassidim, Kavi Goel, Clement Farabet, Joelle Barral, Tris Warkentin, Jonathon Shlens, David Fleet, Victor Cotruta, Omar Sanseviero, Gus Martins, Phoebe Kirk, Anand Rao, Shravya Shetty, David F. Steiner, Can Kirmizibayrak, Rory Pilgrim, Daniel Golden, Lin Yang
cs.AI
Resumo
A inteligência artificial (IA) tem um potencial significativo em aplicações de saúde, mas seu treinamento e implantação enfrentam desafios devido à diversidade de dados na área da saúde, à complexidade das tarefas e à necessidade de preservar a privacidade. Modelos de base que se destacam em tarefas médicas e exigem menos dados de ajuste específicos para cada tarefa são essenciais para acelerar o desenvolvimento de aplicações de IA na saúde. Apresentamos o MedGemma, uma coleção de modelos de base de visão e linguagem médica baseados no Gemma 3 4B e 27B. O MedGemma demonstra compreensão e raciocínio médico avançados em imagens e textos, superando significativamente o desempenho de modelos generativos de tamanho similar e se aproximando do desempenho de modelos específicos para tarefas, mantendo as capacidades gerais dos modelos base do Gemma 3. Para tarefas fora da distribuição, o MedGemma alcança uma melhoria de 2,6-10% em respostas a perguntas multimodais médicas, 15,5-18,1% na classificação de achados em radiografias de tórax e 10,8% em avaliações agentivas em comparação com os modelos base. O ajuste fino do MedGemma melhora ainda mais o desempenho em subdomínios, reduzindo erros na recuperação de informações de prontuários eletrônicos em 50% e alcançando desempenho comparável aos métodos especializados de ponta existentes para classificação de pneumotórax e classificação de patches de histopatologia. Além disso, introduzimos o MedSigLIP, um codificador visual ajustado para medicina derivado do SigLIP. O MedSigLIP impulsiona as capacidades de compreensão visual do MedGemma e, como codificador, alcança desempenho comparável ou superior ao de codificadores especializados em imagens médicas. Em conjunto, a coleção MedGemma fornece uma base sólida de capacidades para imagens e textos médicos, com potencial para acelerar significativamente a pesquisa médica e o desenvolvimento de aplicações subsequentes. A coleção MedGemma, incluindo tutoriais e pesos dos modelos, pode ser encontrada em https://goo.gle/medgemma.
English
Artificial intelligence (AI) has significant potential in healthcare
applications, but its training and deployment faces challenges due to
healthcare's diverse data, complex tasks, and the need to preserve privacy.
Foundation models that perform well on medical tasks and require less
task-specific tuning data are critical to accelerate the development of
healthcare AI applications. We introduce MedGemma, a collection of medical
vision-language foundation models based on Gemma 3 4B and 27B. MedGemma
demonstrates advanced medical understanding and reasoning on images and text,
significantly exceeding the performance of similar-sized generative models and
approaching the performance of task-specific models, while maintaining the
general capabilities of the Gemma 3 base models. For out-of-distribution tasks,
MedGemma achieves 2.6-10% improvement on medical multimodal question answering,
15.5-18.1% improvement on chest X-ray finding classification, and 10.8%
improvement on agentic evaluations compared to the base models. Fine-tuning
MedGemma further improves performance in subdomains, reducing errors in
electronic health record information retrieval by 50% and reaching comparable
performance to existing specialized state-of-the-art methods for pneumothorax
classification and histopathology patch classification. We additionally
introduce MedSigLIP, a medically-tuned vision encoder derived from SigLIP.
MedSigLIP powers the visual understanding capabilities of MedGemma and as an
encoder achieves comparable or better performance than specialized medical
image encoders. Taken together, the MedGemma collection provides a strong
foundation of medical image and text capabilities, with potential to
significantly accelerate medical research and development of downstream
applications. The MedGemma collection, including tutorials and model weights,
can be found at https://goo.gle/medgemma.