ChatPaper.aiChatPaper

MedXIAOHE:医療マルチモーダル大規模言語モデル構築の包括的レシピ

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

February 13, 2026
著者: Baorong Shi, Bo Cui, Boyuan Jiang, Deli Yu, Fang Qian, Haihua Yang, Huichao Wang, Jiale Chen, Jianfei Pan, Jieqiong Cao, Jinghao Lin, Kai Wu, Lin Yang, Shengsheng Yao, Tao Chen, Xiaojun Xiao, Xiaozhong Ji, Xu Wang, Yijun He, Zhixiong Yang
cs.AI

要旨

我々はMedXIAOHEを提案する。これは実世界の臨床応用における汎用医療理解と推論を推進する医療視覚言語基盤モデルである。MedXIAOHEは多様な医療ベンチマークでState-of-the-Art性能を達成し、複数の能力において主要なクローズドソースマルチモーダルシステムを凌駕している。これを実現するため、我々は異種混合の医療コーパスを体系化して知識カバレッジを拡大し(稀有病などの)ロングテールギャップを軽減するエンティティ認識継続事前学習フレームワークを提案する。医療専門家レベルの推論と対話を実現するため、MedXIAOHEは強化学習とツール拡張エージェント訓練を通じて多様な医療推論パターンを統合し、検証可能な判断軌跡を伴う多段階診断推論を可能とする。実世界での信頼性向上のため、ユーザー選好基準、証拠に基づく推論、低幻覚の長文レポート生成を統合し、医療指示への適合性を改善している。本報告では実践的な設計選択、スケーリングの知見、評価フレームワークを公開し、今後の研究発展を促すことを目的とする。
English
We present MedXIAOHE, a medical vision-language foundation model designed to advance general-purpose medical understanding and reasoning in real-world clinical applications. MedXIAOHE achieves state-of-the-art performance across diverse medical benchmarks and surpasses leading closed-source multimodal systems on multiple capabilities. To achieve this, we propose an entity-aware continual pretraining framework that organizes heterogeneous medical corpora to broaden knowledge coverage and reduce long-tail gaps (e.g., rare diseases). For medical expert-level reasoning and interaction, MedXIAOHE incorporates diverse medical reasoning patterns via reinforcement learning and tool-augmented agentic training, enabling multi-step diagnostic reasoning with verifiable decision traces. To improve reliability in real-world use, MedXIAOHE integrates user-preference rubrics, evidence-grounded reasoning, and low-hallucination long-form report generation, with improved adherence to medical instructions. We release this report to document our practical design choices, scaling insights, and evaluation framework, hoping to inspire further research.
PDF565February 17, 2026