Baichuan-M3 : Modélisation de l'interrogatoire clinique pour une prise de décision médicale fiable
Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making
February 6, 2026
Auteurs: Baichuan-M3 Team, Chengfeng Dou, Fan Yang, Fei Li, Jiyuan Jia, Qiang Ju, Shuai Wang, Tianpeng Li, Xiangrong Zeng, Yijie Zhou, Hongda Zhang, Jinyang Tai, Linzhuang Sun, Peidong Guo, Yichuan Mo, Xiaochuan Wang, Hengfu Cui, Zhishou Zhang
cs.AI
Résumé
Nous présentons Baichuan-M3, un grand modèle de langage médical renforcé conçu pour faire évoluer le paradigme du simple système de questions-réponses vers un outil d'aide à la décision clinique active et de niveau professionnel. Pour pallier les limitations des systèmes existants dans les consultations ouvertes, Baichuan-M3 utilise un pipeline d'entraînement spécialisé pour modéliser le processus systématique de raisonnement d'un médecin. Ses capacités clés incluent : (i) l'acquisition proactive d'informations pour résoudre les ambiguïtés ; (ii) un raisonnement à long terme qui unifie des éléments de preuve épars en diagnostics cohérents ; et (iii) une suppression adaptative des hallucinations pour garantir la fiabilité factuelle. Les évaluations empiriques démontrent que Baichuan-M3 obtient des résultats à la pointe de l'état de l'art sur HealthBench, le nouveau HealthBench-Hallu et ScanBench, surpassant significativement GPT-5.2 dans les domaines de l'investigation clinique, du conseil et de la sécurité. Les modèles sont disponibles publiquement à l'adresse https://huggingface.co/collections/baichuan-inc/baichuan-m3.
English
We introduce Baichuan-M3, a medical-enhanced large language model engineered to shift the paradigm from passive question-answering to active, clinical-grade decision support. Addressing the limitations of existing systems in open-ended consultations, Baichuan-M3 utilizes a specialized training pipeline to model the systematic workflow of a physician. Key capabilities include: (i) proactive information acquisition to resolve ambiguity; (ii) long-horizon reasoning that unifies scattered evidence into coherent diagnoses; and (iii) adaptive hallucination suppression to ensure factual reliability. Empirical evaluations demonstrate that Baichuan-M3 achieves state-of-the-art results on HealthBench, the newly introduced HealthBench-Hallu and ScanBench, significantly outperforming GPT-5.2 in clinical inquiry, advisory and safety. The models are publicly available at https://huggingface.co/collections/baichuan-inc/baichuan-m3.