Baichuan-M3:信頼性ある医療判断のための臨床問診モデリング
Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making
February 6, 2026
著者: Baichuan-M3 Team, Chengfeng Dou, Fan Yang, Fei Li, Jiyuan Jia, Qiang Ju, Shuai Wang, Tianpeng Li, Xiangrong Zeng, Yijie Zhou, Hongda Zhang, Jinyang Tai, Linzhuang Sun, Peidong Guo, Yichuan Mo, Xiaochuan Wang, Hengfu Cui, Zhishou Zhang
cs.AI
要旨
我々はBaichuan-M3を紹介する。これは医療機能を強化した大規模言語モデルであり、従来の受動的な質疑応答から、能動的で臨床レベルの意思決定支援へとパラダイムシフトを実現するために設計された。オープンエンドの診療場面における既存システムの限界に対処するため、Baichuan-M3は医師の体系的な診療ワークフローを模倣する専門的なトレーニングパイプラインを採用している。主な機能は以下の通りである:(i) あいまいさを解消するための能動的情報収集、(ii) 散在する証拠を一貫した診断に統合する長期推論、(iii) 事実の信頼性を確保する適応的虚構抑制。実証評価により、Baichuan-M3がHealthBench、新たに導入されたHealthBench-HalluおよびScanBenchにおいて最高水準の結果を達成し、臨床問診、助言、安全性においてGPT-5.2を大幅に上回ることを示した。本モデルはhttps://huggingface.co/collections/baichuan-inc/baichuan-m3 で公開されている。
English
We introduce Baichuan-M3, a medical-enhanced large language model engineered to shift the paradigm from passive question-answering to active, clinical-grade decision support. Addressing the limitations of existing systems in open-ended consultations, Baichuan-M3 utilizes a specialized training pipeline to model the systematic workflow of a physician. Key capabilities include: (i) proactive information acquisition to resolve ambiguity; (ii) long-horizon reasoning that unifies scattered evidence into coherent diagnoses; and (iii) adaptive hallucination suppression to ensure factual reliability. Empirical evaluations demonstrate that Baichuan-M3 achieves state-of-the-art results on HealthBench, the newly introduced HealthBench-Hallu and ScanBench, significantly outperforming GPT-5.2 in clinical inquiry, advisory and safety. The models are publicly available at https://huggingface.co/collections/baichuan-inc/baichuan-m3.