MedXIAOHE: Una Ricetta Completa per la Costruzione di MLLM Medici
MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs
February 13, 2026
Autori: Baorong Shi, Bo Cui, Boyuan Jiang, Deli Yu, Fang Qian, Haihua Yang, Huichao Wang, Jiale Chen, Jianfei Pan, Jieqiong Cao, Jinghao Lin, Kai Wu, Lin Yang, Shengsheng Yao, Tao Chen, Xiaojun Xiao, Xiaozhong Ji, Xu Wang, Yijun He, Zhixiong Yang
cs.AI
Abstract
Presentiamo MedXIAOHE, un modello fondazionale medico visione-linguaggio progettato per far progredire la comprensione e il ragionamento medico generico nelle applicazioni cliniche del mondo reale. MedXIAOHE raggiunge prestazioni all'avanguardia su diversi benchmark medici e supera i principali sistemi multimodali proprietari in molteplici capacità. Per ottenere questo risultato, proponiamo una struttura di pre-addestramento continuo consapevole delle entità che organizza corpora eterogenei per ampliare la copertura conoscitiva e ridurre i gap di coda lunga (ad esempio, malattie rare). Per un ragionamento e un'interazione di livello esperto medico, MedXIAOHE incorpora diversi modelli di ragionamento medico tramite apprendimento per rinforzo e addestramento agentistico potenziato da strumenti, abilitando un ragionamento diagnostico multi-step con tracce decisionali verificabili. Per migliorare l'affidabilità nell'uso reale, MedXIAOHE integra rubriche basate sulle preferenze dell'utente, ragionamento fondato su evidenze e generazione di report lunghi a bassa allucinazione, con un migliorato rispetto delle istruzioni mediche. Rilasciamo questo rapporto per documentare le nostre scelte progettuali pratiche, le intuizioni sul scaling e il quadro di valutazione, con la speranza di ispirare ulteriori ricerche.
English
We present MedXIAOHE, a medical vision-language foundation model designed to advance general-purpose medical understanding and reasoning in real-world clinical applications. MedXIAOHE achieves state-of-the-art performance across diverse medical benchmarks and surpasses leading closed-source multimodal systems on multiple capabilities. To achieve this, we propose an entity-aware continual pretraining framework that organizes heterogeneous medical corpora to broaden knowledge coverage and reduce long-tail gaps (e.g., rare diseases). For medical expert-level reasoning and interaction, MedXIAOHE incorporates diverse medical reasoning patterns via reinforcement learning and tool-augmented agentic training, enabling multi-step diagnostic reasoning with verifiable decision traces. To improve reliability in real-world use, MedXIAOHE integrates user-preference rubrics, evidence-grounded reasoning, and low-hallucination long-form report generation, with improved adherence to medical instructions. We release this report to document our practical design choices, scaling insights, and evaluation framework, hoping to inspire further research.