MedXIAOHE: Комплексный рецепт создания медицинских мультимодальных больших языковых моделей
MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs
February 13, 2026
Авторы: Baorong Shi, Bo Cui, Boyuan Jiang, Deli Yu, Fang Qian, Haihua Yang, Huichao Wang, Jiale Chen, Jianfei Pan, Jieqiong Cao, Jinghao Lin, Kai Wu, Lin Yang, Shengsheng Yao, Tao Chen, Xiaojun Xiao, Xiaozhong Ji, Xu Wang, Yijun He, Zhixiong Yang
cs.AI
Аннотация
Мы представляем MedXIAOHE — базовую модель медицинского зрения и языка, созданную для развития универсального медицинского понимания и логических рассуждений в реальных клинических применениях. MedXIAOHE демонстрирует наилучшие результаты в разнообразных медицинских тестах и превосходит ведущие закрытые мультимодальные системы по ряду ключевых возможностей. Для этого мы предлагаем систему непрерывного дообучения с учетом сущностей, которая организует гетерогенные медицинские корпуса для расширения охвата знаний и сокращения разрывов в редких случаях (например, орфанные заболевания). Для обеспечения экспертного уровня медицинских рассуждений и взаимодействия MedXIAOHE интегрирует разнообразные паттерны медицинского мышления через обучение с подкреплением и инструментально-агентное обучение, обеспечивая многошаговую диагностическую логику с проверяемой цепочкой решений. Для повышения надежности в реальных условиях MedXIAOHE включает рубрики пользовательских предпочтений, обоснованное доказательствами рассуждение и генерацию развернутых отчетов с низким уровнем галлюцинаций, обеспечивая лучшее соответствие медицинским инструкциям. Мы публикуем данный отчет для документирования наших практических проектных решений, инсайтов масштабирования и оценочной системы, надеясь вдохновить дальнейшие исследования.
English
We present MedXIAOHE, a medical vision-language foundation model designed to advance general-purpose medical understanding and reasoning in real-world clinical applications. MedXIAOHE achieves state-of-the-art performance across diverse medical benchmarks and surpasses leading closed-source multimodal systems on multiple capabilities. To achieve this, we propose an entity-aware continual pretraining framework that organizes heterogeneous medical corpora to broaden knowledge coverage and reduce long-tail gaps (e.g., rare diseases). For medical expert-level reasoning and interaction, MedXIAOHE incorporates diverse medical reasoning patterns via reinforcement learning and tool-augmented agentic training, enabling multi-step diagnostic reasoning with verifiable decision traces. To improve reliability in real-world use, MedXIAOHE integrates user-preference rubrics, evidence-grounded reasoning, and low-hallucination long-form report generation, with improved adherence to medical instructions. We release this report to document our practical design choices, scaling insights, and evaluation framework, hoping to inspire further research.