MedXIAOHE: Uma Receita Abrangente para a Construção de MLLMs Médicos
MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs
February 13, 2026
Autores: Baorong Shi, Bo Cui, Boyuan Jiang, Deli Yu, Fang Qian, Haihua Yang, Huichao Wang, Jiale Chen, Jianfei Pan, Jieqiong Cao, Jinghao Lin, Kai Wu, Lin Yang, Shengsheng Yao, Tao Chen, Xiaojun Xiao, Xiaozhong Ji, Xu Wang, Yijun He, Zhixiong Yang
cs.AI
Resumo
Apresentamos o MedXIAOHE, um modelo de base de visão e linguagem médica concebido para avançar a compreensão e o raciocínio médico de propósito geral em aplicações clínicas do mundo real. O MedXIAOHE alcança um desempenho de última geração em diversas referências médicas e supera os principais sistemas multimodais de código fechado em múltiplas capacidades. Para tal, propomos uma estrutura de pré-treinamento contínuo com consciência de entidades que organiza corpora médicos heterogéneos para ampliar a cobertura de conhecimento e reduzir lacunas de cauda longa (por exemplo, doenças raras). Para um raciocínio e interação ao nível de peritos médicos, o MedXIAOHE incorpora diversos padrões de raciocínio médico através de aprendizagem por reforço e treino de agentes aumentados por ferramentas, permitindo um raciocínio diagnóstico multi-etapas com traços de decisão verificáveis. Para melhorar a fiabilidade na utilização do mundo real, o MedXIAOHE integra rubricas de preferência do utilizador, raciocínio baseado em evidências e geração de relatórios longos com baixa alucinação, com uma melhor adesão a instruções médicas. Divulgamos este relatório para documentar as nossas escolhas de design prático, perspetivas de escalabilidade e estrutura de avaliação, na esperança de inspirar mais investigação.
English
We present MedXIAOHE, a medical vision-language foundation model designed to advance general-purpose medical understanding and reasoning in real-world clinical applications. MedXIAOHE achieves state-of-the-art performance across diverse medical benchmarks and surpasses leading closed-source multimodal systems on multiple capabilities. To achieve this, we propose an entity-aware continual pretraining framework that organizes heterogeneous medical corpora to broaden knowledge coverage and reduce long-tail gaps (e.g., rare diseases). For medical expert-level reasoning and interaction, MedXIAOHE incorporates diverse medical reasoning patterns via reinforcement learning and tool-augmented agentic training, enabling multi-step diagnostic reasoning with verifiable decision traces. To improve reliability in real-world use, MedXIAOHE integrates user-preference rubrics, evidence-grounded reasoning, and low-hallucination long-form report generation, with improved adherence to medical instructions. We release this report to document our practical design choices, scaling insights, and evaluation framework, hoping to inspire further research.