MedXIAOHE: Uma Receita Abrangente para a Construção de MLLMs Médicos

Resumo

Apresentamos o MedXIAOHE, um modelo de base de visão e linguagem médica concebido para avançar a compreensão e o raciocínio médico de propósito geral em aplicações clínicas do mundo real. O MedXIAOHE alcança um desempenho de última geração em diversas referências médicas e supera os principais sistemas multimodais de código fechado em múltiplas capacidades. Para tal, propomos uma estrutura de pré-treinamento contínuo com consciência de entidades que organiza corpora médicos heterogéneos para ampliar a cobertura de conhecimento e reduzir lacunas de cauda longa (por exemplo, doenças raras). Para um raciocínio e interação ao nível de peritos médicos, o MedXIAOHE incorpora diversos padrões de raciocínio médico através de aprendizagem por reforço e treino de agentes aumentados por ferramentas, permitindo um raciocínio diagnóstico multi-etapas com traços de decisão verificáveis. Para melhorar a fiabilidade na utilização do mundo real, o MedXIAOHE integra rubricas de preferência do utilizador, raciocínio baseado em evidências e geração de relatórios longos com baixa alucinação, com uma melhor adesão a instruções médicas. Divulgamos este relatório para documentar as nossas escolhas de design prático, perspetivas de escalabilidade e estrutura de avaliação, na esperança de inspirar mais investigação.

English

We present MedXIAOHE, a medical vision-language foundation model designed to advance general-purpose medical understanding and reasoning in real-world clinical applications. MedXIAOHE achieves state-of-the-art performance across diverse medical benchmarks and surpasses leading closed-source multimodal systems on multiple capabilities. To achieve this, we propose an entity-aware continual pretraining framework that organizes heterogeneous medical corpora to broaden knowledge coverage and reduce long-tail gaps (e.g., rare diseases). For medical expert-level reasoning and interaction, MedXIAOHE incorporates diverse medical reasoning patterns via reinforcement learning and tool-augmented agentic training, enabling multi-step diagnostic reasoning with verifiable decision traces. To improve reliability in real-world use, MedXIAOHE integrates user-preference rubrics, evidence-grounded reasoning, and low-hallucination long-form report generation, with improved adherence to medical instructions. We release this report to document our practical design choices, scaling insights, and evaluation framework, hoping to inspire further research.

MedXIAOHE: Uma Receita Abrangente para a Construção de MLLMs Médicos

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

Resumo

Support