MedXIAOHE: Una Ricetta Completa per la Costruzione di MLLM Medici

Abstract

Presentiamo MedXIAOHE, un modello fondazionale medico visione-linguaggio progettato per far progredire la comprensione e il ragionamento medico generico nelle applicazioni cliniche del mondo reale. MedXIAOHE raggiunge prestazioni all'avanguardia su diversi benchmark medici e supera i principali sistemi multimodali proprietari in molteplici capacità. Per ottenere questo risultato, proponiamo una struttura di pre-addestramento continuo consapevole delle entità che organizza corpora eterogenei per ampliare la copertura conoscitiva e ridurre i gap di coda lunga (ad esempio, malattie rare). Per un ragionamento e un'interazione di livello esperto medico, MedXIAOHE incorpora diversi modelli di ragionamento medico tramite apprendimento per rinforzo e addestramento agentistico potenziato da strumenti, abilitando un ragionamento diagnostico multi-step con tracce decisionali verificabili. Per migliorare l'affidabilità nell'uso reale, MedXIAOHE integra rubriche basate sulle preferenze dell'utente, ragionamento fondato su evidenze e generazione di report lunghi a bassa allucinazione, con un migliorato rispetto delle istruzioni mediche. Rilasciamo questo rapporto per documentare le nostre scelte progettuali pratiche, le intuizioni sul scaling e il quadro di valutazione, con la speranza di ispirare ulteriori ricerche.

English

We present MedXIAOHE, a medical vision-language foundation model designed to advance general-purpose medical understanding and reasoning in real-world clinical applications. MedXIAOHE achieves state-of-the-art performance across diverse medical benchmarks and surpasses leading closed-source multimodal systems on multiple capabilities. To achieve this, we propose an entity-aware continual pretraining framework that organizes heterogeneous medical corpora to broaden knowledge coverage and reduce long-tail gaps (e.g., rare diseases). For medical expert-level reasoning and interaction, MedXIAOHE incorporates diverse medical reasoning patterns via reinforcement learning and tool-augmented agentic training, enabling multi-step diagnostic reasoning with verifiable decision traces. To improve reliability in real-world use, MedXIAOHE integrates user-preference rubrics, evidence-grounded reasoning, and low-hallucination long-form report generation, with improved adherence to medical instructions. We release this report to document our practical design choices, scaling insights, and evaluation framework, hoping to inspire further research.

MedXIAOHE: Una Ricetta Completa per la Costruzione di MLLM Medici

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

Abstract

Support