ChatPaper.aiChatPaper

MedXIAOHE: Una Receta Integral para la Construcción de MLLMs Médicos

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

February 13, 2026
Autores: Baorong Shi, Bo Cui, Boyuan Jiang, Deli Yu, Fang Qian, Haihua Yang, Huichao Wang, Jiale Chen, Jianfei Pan, Jieqiong Cao, Jinghao Lin, Kai Wu, Lin Yang, Shengsheng Yao, Tao Chen, Xiaojun Xiao, Xiaozhong Ji, Xu Wang, Yijun He, Zhixiong Yang
cs.AI

Resumen

Presentamos MedXIAOHE, un modelo fundacional de visión y lenguaje médico diseñado para impulsar la comprensión y el razonamiento médico de propósito general en aplicaciones clínicas del mundo real. MedXIAOHE logra un rendimiento de vanguardia en diversos benchmarks médicos y supera a los principales sistemas multimodales de código cerrado en múltiples capacidades. Para conseguirlo, proponemos un marco de preentrenamiento continuo consciente de entidades que organiza corpus médicos heterogéneos para ampliar la cobertura de conocimiento y reducir las brechas de cola larga (por ejemplo, enfermedades raras). Para un razonamiento e interacción a nivel de experto médico, MedXIAOHE incorpora diversos patrones de razonamiento médico mediante aprendizaje por refuerzo y entrenamiento agentivo aumentado con herramientas, permitiendo un razonamiento diagnóstico multi-etapa con trazas de decisión verificables. Para mejorar la fiabilidad en entornos reales, MedXIAOHE integra rúbricas de preferencia del usuario, razonamiento basado en evidencias y generación de informes extensos con baja alucinación, mostrando una mayor adherencia a las instrucciones médicas. Publicamos este informe para documentar nuestras decisiones de diseño prácticas, hallazgos sobre escalabilidad y marco de evaluación, con la esperanza de inspirar futuras investigaciones.
English
We present MedXIAOHE, a medical vision-language foundation model designed to advance general-purpose medical understanding and reasoning in real-world clinical applications. MedXIAOHE achieves state-of-the-art performance across diverse medical benchmarks and surpasses leading closed-source multimodal systems on multiple capabilities. To achieve this, we propose an entity-aware continual pretraining framework that organizes heterogeneous medical corpora to broaden knowledge coverage and reduce long-tail gaps (e.g., rare diseases). For medical expert-level reasoning and interaction, MedXIAOHE incorporates diverse medical reasoning patterns via reinforcement learning and tool-augmented agentic training, enabling multi-step diagnostic reasoning with verifiable decision traces. To improve reliability in real-world use, MedXIAOHE integrates user-preference rubrics, evidence-grounded reasoning, and low-hallucination long-form report generation, with improved adherence to medical instructions. We release this report to document our practical design choices, scaling insights, and evaluation framework, hoping to inspire further research.
PDF565February 17, 2026