MedGemma 1.5 기술 보고서
MedGemma 1.5 Technical Report
April 6, 2026
저자: Andrew Sellergren, Chufan Gao, Fereshteh Mahvar, Timo Kohlberger, Fayaz Jamil, Madeleine Traverse, Alberto Tono, Bashir Sadjad, Lin Yang, Charles Lau, Liron Yatziv, Tiffany Chen, Bram Sterling, Kenneth Philbrick, Richa Tiwari, Yun Liu, Madhuram Jajoo, Chandrashekar Sankarapu, Swapnil Vispute, Harshad Purandare, Abhishek Bijay Mishra, Sam Schmidgall, Tao Tu, Anil Palepu, Chunjong Park, Tim Strother, Rahul Thapa, Yong Cheng, Preeti Singh, Kat Black, Yossi Matias, Katherine Chou, Avinatan Hassidim, Kavi Goel, Joelle Barral, Tris Warkentin, Shravya Shetty, Dale Webster, Sunny Virmani, David F. Steiner, Can Kirmizibayrak, Daniel Golden
cs.AI
초록
MedGemma 컬렉션의 최신 모델인 MedGemma 1.5 4B를 소개합니다. MedGemma 1.5는 MedGemma 1을 기반으로 고차원 의료 영상(CT/MRI 볼륨 및 조직병리학 전체 슬라이드 이미지), 경계 상자를 통한 해부학적 위치 특정, 다중 시점 흉부 X-선 분석, 향상된 의료 문서(검사 보고서, 전자의무기록) 이해 능력을 통합하여 기능을 확장했습니다. 본 논문에서는 새로운 학습 데이터, 장문맥 3D 볼륨 분할, 전체 슬라이드 병리 샘플링을 포함하여 단일 아키텍처 내에서 이러한 다양한 모드를 구현하는 데 필요한 혁신적 방법을 상세히 설명합니다. MedGemma 1 4B 대비 MedGemma 1.5 4B는 이러한 새로운 영역에서 상당한 성능 향상을 보여주며, 3D MRI 상태 분류 정확도는 11%, 3D CT 상태 분류 정확도는 3% 절대 개선되었습니다. 전체 슬라이드 병리 영상에서는 47%의 macro F1 점수 상승을 달성했습니다. 또한, 흉부 X-선에서 교차 over 합집합 기준 해부학적 위치 특정 성능이 35% 향상되었고, 종단적(다중 시점) 흉부 X-선 분석에서 4%의 macro 정확도를 기록했습니다. MedGemma 1 대비 향상된 다중모드 성능 외에도, MedGemma 1.5는 텍스트 기반 임상 지식 및 추론 능력이 개선되어 MedQA 정확도는 5%, EHRQA 정확도는 22% 향상되었습니다. 또한 4개의 서로 다른 검사 보고서 정보 추출 데이터셋(EHR Dataset 2, 3, 4 및 Mendeley Clinical Laboratory Test Reports)에서 평균 18%의 macro F1 성능을 달성했습니다. 종합적으로, MedGemma 1.5는 개발자가 차세대 의료 AI 시스템을 구축할 수 있는 개선된 기반으로 설계된, 커뮤니티를 위한 강력한 오픈 리소스 역할을 합니다. MedGemma 1.5 기반 구축을 위한 자료와 튜토리얼은 https://goo.gle/MedGemma에서 확인할 수 있습니다.
English
We introduce MedGemma 1.5 4B, the latest model in the MedGemma collection. MedGemma 1.5 expands on MedGemma 1 by integrating additional capabilities: high-dimensional medical imaging (CT/MRI volumes and histopathology whole slide images), anatomical localization via bounding boxes, multi-timepoint chest X-ray analysis, and improved medical document understanding (lab reports, electronic health records). We detail the innovations required to enable these modalities within a single architecture, including new training data, long-context 3D volume slicing, and whole-slide pathology sampling. Compared to MedGemma 1 4B, MedGemma 1.5 4B demonstrates significant gains in these new areas, improving 3D MRI condition classification accuracy by 11% and 3D CT condition classification by 3% (absolute improvements). In whole slide pathology imaging, MedGemma 1.5 4B achieves a 47% macro F1 gain. Additionally, it improves anatomical localization with a 35% increase in Intersection over Union on chest X-rays and achieves a 4% macro accuracy for longitudinal (multi-timepoint) chest x-ray analysis. Beyond its improved multimodal performance over MedGemma 1, MedGemma 1.5 improves on text-based clinical knowledge and reasoning, improving by 5% on MedQA accuracy and 22% on EHRQA accuracy. It also achieves an average of 18% macro F1 on 4 different lab report information extraction datasets (EHR Datasets 2, 3, 4, and Mendeley Clinical Laboratory Test Reports). Taken together, MedGemma 1.5 serves as a robust, open resource for the community, designed as an improved foundation on which developers can create the next generation of medical AI systems. Resources and tutorials for building upon MedGemma 1.5 can be found at https://goo.gle/MedGemma.