ChatPaper.aiChatPaper

Informe Técnico de MedGemma

MedGemma Technical Report

July 7, 2025
Autores: Andrew Sellergren, Sahar Kazemzadeh, Tiam Jaroensri, Atilla Kiraly, Madeleine Traverse, Timo Kohlberger, Shawn Xu, Fayaz Jamil, Cían Hughes, Charles Lau, Justin Chen, Fereshteh Mahvar, Liron Yatziv, Tiffany Chen, Bram Sterling, Stefanie Anna Baby, Susanna Maria Baby, Jeremy Lai, Samuel Schmidgall, Lu Yang, Kejia Chen, Per Bjornsson, Shashir Reddy, Ryan Brush, Kenneth Philbrick, Howard Hu, Howard Yang, Richa Tiwari, Sunny Jansen, Preeti Singh, Yun Liu, Shekoofeh Azizi, Aishwarya Kamath, Johan Ferret, Shreya Pathak, Nino Vieillard, Ramona Merhej, Sarah Perrin, Tatiana Matejovicova, Alexandre Ramé, Morgane Riviere, Louis Rouillard, Thomas Mesnard, Geoffrey Cideron, Jean-bastien Grill, Sabela Ramos, Edouard Yvinec, Michelle Casbon, Elena Buchatskaya, Jean-Baptiste Alayrac, Dmitry, Lepikhin, Vlad Feinberg, Sebastian Borgeaud, Alek Andreev, Cassidy Hardin, Robert Dadashi, Léonard Hussenot, Armand Joulin, Olivier Bachem, Yossi Matias, Katherine Chou, Avinatan Hassidim, Kavi Goel, Clement Farabet, Joelle Barral, Tris Warkentin, Jonathon Shlens, David Fleet, Victor Cotruta, Omar Sanseviero, Gus Martins, Phoebe Kirk, Anand Rao, Shravya Shetty, David F. Steiner, Can Kirmizibayrak, Rory Pilgrim, Daniel Golden, Lin Yang
cs.AI

Resumen

La inteligencia artificial (IA) tiene un potencial significativo en aplicaciones de atención médica, pero su entrenamiento e implementación enfrentan desafíos debido a la diversidad de datos en el sector, la complejidad de las tareas y la necesidad de preservar la privacidad. Los modelos base que funcionan bien en tareas médicas y requieren menos datos de ajuste específicos para cada tarea son cruciales para acelerar el desarrollo de aplicaciones de IA en el ámbito de la salud. Presentamos MedGemma, una colección de modelos base de visión y lenguaje médicos basados en Gemma 3 4B y 27B. MedGemma demuestra un entendimiento y razonamiento médico avanzado en imágenes y texto, superando significativamente el rendimiento de modelos generativos de tamaño similar y acercándose al rendimiento de modelos específicos para tareas, mientras mantiene las capacidades generales de los modelos base de Gemma 3. Para tareas fuera de distribución, MedGemma logra una mejora del 2.6-10% en respuestas a preguntas multimodales médicas, del 15.5-18.1% en la clasificación de hallazgos en radiografías de tórax y del 10.8% en evaluaciones agentivas en comparación con los modelos base. El ajuste fino de MedGemma mejora aún más el rendimiento en subdominios, reduciendo los errores en la recuperación de información de registros electrónicos de salud en un 50% y alcanzando un rendimiento comparable a los métodos especializados más avanzados existentes para la clasificación de neumotórax y la clasificación de parches de histopatología. Además, presentamos MedSigLIP, un codificador visual ajustado médicamente derivado de SigLIP. MedSigLIP potencia las capacidades de comprensión visual de MedGemma y, como codificador, logra un rendimiento comparable o superior al de los codificadores de imágenes médicas especializados. En conjunto, la colección MedGemma proporciona una base sólida de capacidades para imágenes y texto médicos, con el potencial de acelerar significativamente la investigación médica y el desarrollo de aplicaciones derivadas. La colección MedGemma, incluyendo tutoriales y pesos de los modelos, puede encontrarse en https://goo.gle/medgemma.
English
Artificial intelligence (AI) has significant potential in healthcare applications, but its training and deployment faces challenges due to healthcare's diverse data, complex tasks, and the need to preserve privacy. Foundation models that perform well on medical tasks and require less task-specific tuning data are critical to accelerate the development of healthcare AI applications. We introduce MedGemma, a collection of medical vision-language foundation models based on Gemma 3 4B and 27B. MedGemma demonstrates advanced medical understanding and reasoning on images and text, significantly exceeding the performance of similar-sized generative models and approaching the performance of task-specific models, while maintaining the general capabilities of the Gemma 3 base models. For out-of-distribution tasks, MedGemma achieves 2.6-10% improvement on medical multimodal question answering, 15.5-18.1% improvement on chest X-ray finding classification, and 10.8% improvement on agentic evaluations compared to the base models. Fine-tuning MedGemma further improves performance in subdomains, reducing errors in electronic health record information retrieval by 50% and reaching comparable performance to existing specialized state-of-the-art methods for pneumothorax classification and histopathology patch classification. We additionally introduce MedSigLIP, a medically-tuned vision encoder derived from SigLIP. MedSigLIP powers the visual understanding capabilities of MedGemma and as an encoder achieves comparable or better performance than specialized medical image encoders. Taken together, the MedGemma collection provides a strong foundation of medical image and text capabilities, with potential to significantly accelerate medical research and development of downstream applications. The MedGemma collection, including tutorials and model weights, can be found at https://goo.gle/medgemma.
PDF101July 9, 2025