MedXIAOHE: Ein umfassendes Rezept zur Entwicklung medizinischer MLLMs
MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs
February 13, 2026
papers.authors: Baorong Shi, Bo Cui, Boyuan Jiang, Deli Yu, Fang Qian, Haihua Yang, Huichao Wang, Jiale Chen, Jianfei Pan, Jieqiong Cao, Jinghao Lin, Kai Wu, Lin Yang, Shengsheng Yao, Tao Chen, Xiaojun Xiao, Xiaozhong Ji, Xu Wang, Yijun He, Zhixiong Yang
cs.AI
papers.abstract
Wir stellen MedXIAOHE vor, ein medizinisches Vision-Language-Foundation-Modell, das entwickelt wurde, um das allgemeine medizinische Verständnis und die klinische Denkfähigkeit in realen Anwendungsszenarien zu erweitern. MedXIAOHE erzielt state-of-the-art Leistungen in diversen medizinischen Benchmarks und übertrifft führende Closed-Source-Multimodalsysteme in mehreren Fähigkeiten. Um dies zu erreichen, schlagen wir ein entitätsbewusstes kontinuierliches Vortrainierungsframework vor, das heterogene medizinische Korpora strukturiert, um die Wissensabdeckung zu erweitern und Lücken im Long-Tail-Bereich (z.B. seltene Krankheiten) zu verringern. Für expertenähnliches medizinisches Denken und Interaktion integriert MedXIAOHE diverse medizinische Reasoning-Muster durch Reinforcement Learning und werkzeuggestütztes agentenbasiertes Training, wodurch mehrstufiges diagnostisches Reasoning mit nachvollziehbaren Entscheidungspfaden ermöglicht wird. Um die Zuverlässigkeit im realen Einsatz zu verbessern, vereint MedXIAOHE nutzerpräferenzbasierte Bewertungskriterien, evidenzbasiertes Reasoning und halluzinationsarme Langform-Berichterstattung mit verbesserter Einhaltung medizinischer Anweisungen. Wir veröffentlichen diesen Bericht, um unsere praktischen Designentscheidungen, Skalierungserkenntnisse und Evaluierungsframework zu dokumentieren, in der Hoffnung, weitere Forschungsarbeiten anzuregen.
English
We present MedXIAOHE, a medical vision-language foundation model designed to advance general-purpose medical understanding and reasoning in real-world clinical applications. MedXIAOHE achieves state-of-the-art performance across diverse medical benchmarks and surpasses leading closed-source multimodal systems on multiple capabilities. To achieve this, we propose an entity-aware continual pretraining framework that organizes heterogeneous medical corpora to broaden knowledge coverage and reduce long-tail gaps (e.g., rare diseases). For medical expert-level reasoning and interaction, MedXIAOHE incorporates diverse medical reasoning patterns via reinforcement learning and tool-augmented agentic training, enabling multi-step diagnostic reasoning with verifiable decision traces. To improve reliability in real-world use, MedXIAOHE integrates user-preference rubrics, evidence-grounded reasoning, and low-hallucination long-form report generation, with improved adherence to medical instructions. We release this report to document our practical design choices, scaling insights, and evaluation framework, hoping to inspire further research.