Baichuan-M3: Modellazione dell'Indagine Clinica per un Processo Decisionale Medico Affidabile
Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making
February 6, 2026
Autori: Baichuan-M3 Team, Chengfeng Dou, Fan Yang, Fei Li, Jiyuan Jia, Qiang Ju, Shuai Wang, Tianpeng Li, Xiangrong Zeng, Yijie Zhou, Hongda Zhang, Jinyang Tai, Linzhuang Sun, Peidong Guo, Yichuan Mo, Xiaochuan Wang, Hengfu Cui, Zhishou Zhang
cs.AI
Abstract
Presentiamo Baichuan-M3, un modello linguistico di grandi dimensioni potenziato per il settore medico, progettato per spostare il paradigma dal semplice rispondere a domande a un supporto decisionale attivo di livello clinico. Affrontando i limiti dei sistemi esistenti nelle consultazioni a domanda aperta, Baichuan-M3 utilizza una pipeline di addestramento specializzata per modellare il flusso di lavoro sistematico di un medico. Le capacità chiave includono: (i) l'acquisizione proattiva di informazioni per risolvere ambiguità; (ii) un ragionamento a lungo termine che unisce evidenze sparse in diagnosi coerenti; e (iii) una soppressione adattiva delle allucinazioni per garantire l'affidabilità fattuale. Valutazioni empiriche dimostrano che Baichuan-M3 raggiunge risultati all'avanguardia su HealthBench, sul nuovo HealthBench-Hallu e su ScanBench, superando significativamente GPT-5.2 nelle aree di indagine clinica, consulenza e sicurezza. I modelli sono pubblicamente disponibili all'indirizzo https://huggingface.co/collections/baichuan-inc/baichuan-m3.
English
We introduce Baichuan-M3, a medical-enhanced large language model engineered to shift the paradigm from passive question-answering to active, clinical-grade decision support. Addressing the limitations of existing systems in open-ended consultations, Baichuan-M3 utilizes a specialized training pipeline to model the systematic workflow of a physician. Key capabilities include: (i) proactive information acquisition to resolve ambiguity; (ii) long-horizon reasoning that unifies scattered evidence into coherent diagnoses; and (iii) adaptive hallucination suppression to ensure factual reliability. Empirical evaluations demonstrate that Baichuan-M3 achieves state-of-the-art results on HealthBench, the newly introduced HealthBench-Hallu and ScanBench, significantly outperforming GPT-5.2 in clinical inquiry, advisory and safety. The models are publicly available at https://huggingface.co/collections/baichuan-inc/baichuan-m3.