Baichuan-M3: Modellering van Klinische Bevraging voor Betrouwbare Medische Besluitvorming
Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making
February 6, 2026
Auteurs: Baichuan-M3 Team, Chengfeng Dou, Fan Yang, Fei Li, Jiyuan Jia, Qiang Ju, Shuai Wang, Tianpeng Li, Xiangrong Zeng, Yijie Zhou, Hongda Zhang, Jinyang Tai, Linzhuang Sun, Peidong Guo, Yichuan Mo, Xiaochuan Wang, Hengfu Cui, Zhishou Zhang
cs.AI
Samenvatting
Wij introduceren Baichuan-M3, een medisch versterkt groot taalmodel dat is ontwikkeld om het paradigma te verschuiven van passieve vraagbeantwoording naar actieve, klinisch-kwalitatieve beslissingsondersteuning. Om de beperkingen van bestaande systemen bij open-einde consultaties aan te pakken, maakt Baichuan-M3 gebruik van een gespecialiseerde trainingspijplijn om de systematische werkwijze van een arts te modelleren. Belangrijke capaciteiten omvatten: (i) proactieve informatieverwerving om ambiguïteit op te lossen; (ii) redenering over lange termijn die verspreide aanwijzingen verenigt tot samenhangende diagnoses; en (iii) adaptieve hallucinatieonderdrukking om feitelijke betrouwbaarheid te waarborgen. Empirische evaluaties tonen aan dat Baichuan-M3 state-of-the-art resultaten behaalt op HealthBench, de nieuw geïntroduceerde HealthBench-Hallu en ScanBench, en daarbij GPT-5.2 significant overtreft in klinisch onderzoek, advies en veiligheid. De modellen zijn openbaar beschikbaar op https://huggingface.co/collections/baichuan-inc/baichuan-m3.
English
We introduce Baichuan-M3, a medical-enhanced large language model engineered to shift the paradigm from passive question-answering to active, clinical-grade decision support. Addressing the limitations of existing systems in open-ended consultations, Baichuan-M3 utilizes a specialized training pipeline to model the systematic workflow of a physician. Key capabilities include: (i) proactive information acquisition to resolve ambiguity; (ii) long-horizon reasoning that unifies scattered evidence into coherent diagnoses; and (iii) adaptive hallucination suppression to ensure factual reliability. Empirical evaluations demonstrate that Baichuan-M3 achieves state-of-the-art results on HealthBench, the newly introduced HealthBench-Hallu and ScanBench, significantly outperforming GPT-5.2 in clinical inquiry, advisory and safety. The models are publicly available at https://huggingface.co/collections/baichuan-inc/baichuan-m3.