MedXIAOHE: Een Uitgebreid Recept voor het Bouwen van Medische MLLM's

Samenvatting

Wij presenteren MedXIAOHE, een medisch vision-language foundation model dat is ontworpen om algemeen medisch begrip en redeneren in realistische klinische toepassingen te bevorderen. MedXIAOHE behaalt state-of-the-art prestaties op diverse medische benchmarks en overtreft toonaangevende closed-source multimodale systemen op meerdere capaciteiten. Hiertoe stellen we een entity-aware continu voor-trainingsraamwerk voor dat heterogene medische corpora structureert om de kennisdekking te verbreden en long-tail hiaten (zoals zeldzame ziekten) te verkleinen. Voor medisch expert-level redeneren en interactie integreert MedXIAOHE diverse medische redeneerpatronen via reinforcement learning en tool-augmented agentic training, waardoor multi-stap diagnostisch redeneren met verifieerbare beslissingssporen mogelijk wordt. Om de betrouwbaarheid in de praktijk te verbeteren, integreert MedXIAOHE gebruikersvoorkeur-rubrieken, evidence-grounded redeneren en long-form rapportgeneratie met lage hallucinatie, met verbeterde naleving van medische instructies. Wij publiceren dit rapport om onze praktische ontwerpkeuzes, schaalingsinzichten en evaluatieraamwerk te documenteren, in de hoop verder onderzoek te inspireren.

English

We present MedXIAOHE, a medical vision-language foundation model designed to advance general-purpose medical understanding and reasoning in real-world clinical applications. MedXIAOHE achieves state-of-the-art performance across diverse medical benchmarks and surpasses leading closed-source multimodal systems on multiple capabilities. To achieve this, we propose an entity-aware continual pretraining framework that organizes heterogeneous medical corpora to broaden knowledge coverage and reduce long-tail gaps (e.g., rare diseases). For medical expert-level reasoning and interaction, MedXIAOHE incorporates diverse medical reasoning patterns via reinforcement learning and tool-augmented agentic training, enabling multi-step diagnostic reasoning with verifiable decision traces. To improve reliability in real-world use, MedXIAOHE integrates user-preference rubrics, evidence-grounded reasoning, and low-hallucination long-form report generation, with improved adherence to medical instructions. We release this report to document our practical design choices, scaling insights, and evaluation framework, hoping to inspire further research.

MedXIAOHE: Een Uitgebreid Recept voor het Bouwen van Medische MLLM's

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

Samenvatting

Support