Baichuan-M2: 대형 검증 시스템을 통한 의료 역량 확장
Baichuan-M2: Scaling Medical Capability with Large Verifier System
September 2, 2025
저자: Baichuan-M2 Team, Chengfeng Dou, Chong Liu, Fan Yang, Fei Li, Jiyuan Jia, Mingyang Chen, Qiang Ju, Shuai Wang, Shunya Dang, Tianpeng Li, Xiangrong Zeng, Yijie Zhou, Chenzheng Zhu, Da Pan, Fei Deng, Guangwei Ai, Guosheng Dong, Hongda Zhang, Jinyang Tai, Jixiang Hong, Kai Lu, Linzhuang Sun, Peidong Guo, Qian Ma, Rihui Xin, Shihui Yang, Shusen Zhang, Yichuan Mo, Zheng Liang, Zhishou Zhang, Hengfu Cui, Zuyi Zhu, Xiaochuan Wang
cs.AI
초록
대규모 언어 모델(LLMs)이 대화 및 추론 능력에서 발전함에 따라, 의료 분야에서의 실질적인 적용은 중요한 연구 주제로 부상하고 있다. 그러나 USMLE와 같은 정적 벤치마크에서의 의료 LLMs 성능과 실제 임상 의사결정에서의 유용성 사이에는 상당한 격차가 존재한다. 이러한 불일치는 전통적인 시험이 의료 상담의 동적이고 상호작용적인 특성을 포착하지 못하기 때문에 발생한다. 이 문제를 해결하기 위해, 우리는 정적 답변 검증기를 넘어선 새로운 동적 검증 프레임워크를 제안한다. 이 프레임워크는 대규모 고충실도 상호작용 강화 학습 시스템을 구축하며, 두 가지 핵심 구성 요소로 이루어져 있다: 첫째, 비식별화된 의료 기록을 사용하여 현실적인 임상 환경을 생성하는 환자 시뮬레이터(Patient Simulator)와, 둘째, 다차원 평가 지표를 동적으로 생성하는 임상 루브릭 생성기(Clinical Rubrics Generator)이다. 이를 기반으로, 우리는 개선된 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO) 알고리즘을 통해 다단계 강화 학습 전략으로 훈련된 320억 파라미터 규모의 의료 증강 추론 모델인 Baichuan-M2를 개발하였다. HealthBench에서 평가된 Baichuan-M2는 모든 오픈소스 모델과 대부분의 고급 폐쇄형 모델을 능가하며, 이전에 GPT-5만이 달성했던 도전적인 HealthBench Hard 벤치마크에서 32점 이상의 점수를 기록했다. 우리의 연구는 강력한 동적 검증 시스템이 LLMs의 능력을 실질적인 임상 응용과 일치시키는 데 필수적임을 보여주며, 의료 AI 배포에서 성능-파라미터 트레이드오프의 새로운 파레토 최적선을 확립한다.
English
As large language models (LLMs) advance in conversational and reasoning
capabilities, their practical application in healthcare has become a critical
research focus. However, there is a notable gap between the performance of
medical LLMs on static benchmarks such as USMLE and their utility in real-world
clinical decision-making. This discrepancy arises because traditional exams
fail to capture the dynamic, interactive nature of medical consultations. To
address this challenge, we introduce a novel dynamic verification framework
that moves beyond static answer verifier, establishing a large-scale,
high-fidelity interactive reinforcement learning system. Our framework
comprises two key components: a Patient Simulator that creates realistic
clinical environments using de-identified medical records, and a Clinical
Rubrics Generator that dynamically produces multi-dimensional evaluation
metrics. Building on this foundation, we develop Baichuan-M2, a 32B-parameter
medical augmented reasoning model trained through a multi-stage reinforcement
learning strategy with an improved Group Relative Policy Optimization (GRPO)
algorithm. Evaluated on HealthBench, Baichuan-M2 outperforms all other
open-source models and most advanced closed-source counterparts, achieving a
score above 32 on the challenging HealthBench Hard benchmark-previously
exceeded only by GPT-5. Our work demonstrates that robust dynamic verifier
system is essential for aligning LLM capabilities with practical clinical
applications, establishing a new Pareto front in the performance-parameter
trade-off for medical AI deployment.