MedXIAOHE: 의료 MLLM 구축을 위한 종합 레시피
MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs
February 13, 2026
저자: Baorong Shi, Bo Cui, Boyuan Jiang, Deli Yu, Fang Qian, Haihua Yang, Huichao Wang, Jiale Chen, Jianfei Pan, Jieqiong Cao, Jinghao Lin, Kai Wu, Lin Yang, Shengsheng Yao, Tao Chen, Xiaojun Xiao, Xiaozhong Ji, Xu Wang, Yijun He, Zhixiong Yang
cs.AI
초록
본 논문에서는 현실 세계 임상 적용에서 범용 의료 이해와 추론 능력을 향상시키기 위해 설계된 의료 비전-언어 파운데이션 모델 MedXIAOHE를 제안한다. MedXIAOHE는 다양한 의료 벤치마크에서 최첨단 성능을 달성하며, 여러 핵심 역량에서 기존의 폐쇄형 멀티모달 시스템을 능가한다. 이를 위해 이질적인 의료 코퍼스를 체계적으로 구성하여 지식 범위를 확장하고(예: 희귀 질환 등) 장기 꼬리 현상 간극을 줄이는 개체 인식 연속 사전 학습 프레임워크를 제안한다. 전문 의료 수준의 추론 및 상호작용을 위해 MedXIAOHE는 강화 학습과 도구 기반 에이전트 학습을 통해 다양한 의료 추론 패턴을 통합하여 검증 가능한 결정 경로를 갖춘 다단계 진단 추론이 가능하도록 한다. 현실 세계 사용에서의 신뢰성을 높이기 위해 사용자 선호도 기준, 증거 기반 추론, 낮은 허구화 현상을 보이는 장문 보고서 생성 기능을 통합하여 의료 지시 사항 준수성을 개선하였다. 본 보고서는 실용적 설계 선택, 규모 확장 통찰, 평가 프레임워크를 기록하여 향후 연구에 영감을 주고자 공개한다.
English
We present MedXIAOHE, a medical vision-language foundation model designed to advance general-purpose medical understanding and reasoning in real-world clinical applications. MedXIAOHE achieves state-of-the-art performance across diverse medical benchmarks and surpasses leading closed-source multimodal systems on multiple capabilities. To achieve this, we propose an entity-aware continual pretraining framework that organizes heterogeneous medical corpora to broaden knowledge coverage and reduce long-tail gaps (e.g., rare diseases). For medical expert-level reasoning and interaction, MedXIAOHE incorporates diverse medical reasoning patterns via reinforcement learning and tool-augmented agentic training, enabling multi-step diagnostic reasoning with verifiable decision traces. To improve reliability in real-world use, MedXIAOHE integrates user-preference rubrics, evidence-grounded reasoning, and low-hallucination long-form report generation, with improved adherence to medical instructions. We release this report to document our practical design choices, scaling insights, and evaluation framework, hoping to inspire further research.