Baichuan-M3: 신뢰할 수 있는 의료 의사결정을 위한 임상 문의 모델링
Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making
February 6, 2026
저자: Baichuan-M3 Team, Chengfeng Dou, Fan Yang, Fei Li, Jiyuan Jia, Qiang Ju, Shuai Wang, Tianpeng Li, Xiangrong Zeng, Yijie Zhou, Hongda Zhang, Jinyang Tai, Linzhuang Sun, Peidong Guo, Yichuan Mo, Xiaochuan Wang, Hengfu Cui, Zhishou Zhang
cs.AI
초록
우리는 수동적 질의응답에서 능동적이고 임상 수준의 의사결정 지원으로 패러다임을 전환하기 위해 설계된 의료 강화 대규모 언어 모델 Baichuan-M3를 소개한다. 기존 시스템의 개방형 상담에서 나타나는 한계를 해결하기 위해 Baichuan-M3는 의사의 체계적인 업무 흐름을 모델링하기 위한 전문화된 훈련 파이프라인을 활용한다. 주요 능력으로는 (i) 모호함 해결을 위한 능동적 정보 획득, (ii) 흩어진 증거를 일관된 진단으로 통합하는 장기적 추론, (iii) 사실적 신뢰성을 보장하기 위한 적응형 환각 억제가 있다. 실증 평가 결과, Baichuan-M3는 새로 도입된 HealthBench, HealthBench-Hallu 및 ScanBench에서 최첨단 성능을 달성하며, 임상 문의, 자문 및 안전성 측면에서 GPT-5.2를 크게 능가하는 것으로 나타났다. 해당 모델은 https://huggingface.co/collections/baichuan-inc/baichuan-m3에서 공개적으로 이용 가능하다.
English
We introduce Baichuan-M3, a medical-enhanced large language model engineered to shift the paradigm from passive question-answering to active, clinical-grade decision support. Addressing the limitations of existing systems in open-ended consultations, Baichuan-M3 utilizes a specialized training pipeline to model the systematic workflow of a physician. Key capabilities include: (i) proactive information acquisition to resolve ambiguity; (ii) long-horizon reasoning that unifies scattered evidence into coherent diagnoses; and (iii) adaptive hallucination suppression to ensure factual reliability. Empirical evaluations demonstrate that Baichuan-M3 achieves state-of-the-art results on HealthBench, the newly introduced HealthBench-Hallu and ScanBench, significantly outperforming GPT-5.2 in clinical inquiry, advisory and safety. The models are publicly available at https://huggingface.co/collections/baichuan-inc/baichuan-m3.