MedXIAOHE : Une recette complète pour la construction de MLLM médicaux

Résumé

Nous présentons MedXIAOHE, un modèle fondateur vision-langue médical conçu pour faire progresser la compréhension et le raisonnement médical généraliste dans les applications cliniques réelles. MedXIAOHE obtient des performances de pointe sur divers benchmarks médicaux et surpasse les systèmes multimodaux propriétaires leaders sur de multiples capacités. Pour y parvenir, nous proposons un cadre d’apprentissage continu conscient des entités qui organise des corpus médicaux hétérogènes pour élargir la couverture des connaissances et réduire les lacunes de la longue traîne (par exemple, les maladies rares). Pour un raisonnement et une interaction de niveau expert médical, MedXIAOHE intègre divers schémas de raisonnement médical via l’apprentissage par renforcement et un entraînement agentique assisté d’outils, permettant un raisonnement diagnostique multi-étapes avec des traces de décision vérifiables. Pour améliorer la fiabilité en usage réel, MedXIAOHE intègre des grilles de préférences utilisateur, un raisonnement fondé sur des preuves et une génération de rapports détaillés à faible hallucination, avec une meilleure adhérence aux instructions médicales. Nous publions ce rapport pour documenter nos choix de conception pratiques, nos insights sur le passage à l’échelle et notre cadre d’évaluation, espérant inspirer des recherches futures.

English

We present MedXIAOHE, a medical vision-language foundation model designed to advance general-purpose medical understanding and reasoning in real-world clinical applications. MedXIAOHE achieves state-of-the-art performance across diverse medical benchmarks and surpasses leading closed-source multimodal systems on multiple capabilities. To achieve this, we propose an entity-aware continual pretraining framework that organizes heterogeneous medical corpora to broaden knowledge coverage and reduce long-tail gaps (e.g., rare diseases). For medical expert-level reasoning and interaction, MedXIAOHE incorporates diverse medical reasoning patterns via reinforcement learning and tool-augmented agentic training, enabling multi-step diagnostic reasoning with verifiable decision traces. To improve reliability in real-world use, MedXIAOHE integrates user-preference rubrics, evidence-grounded reasoning, and low-hallucination long-form report generation, with improved adherence to medical instructions. We release this report to document our practical design choices, scaling insights, and evaluation framework, hoping to inspire further research.

MedXIAOHE : Une recette complète pour la construction de MLLM médicaux

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

Résumé

Support