MediX-R1: オープンエンド医療強化学習
MediX-R1: Open Ended Medical Reinforcement Learning
February 26, 2026
著者: Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Omair Mohamed, Mohamed Zidan, Fahad Khan, Salman Khan, Rao Anwer, Hisham Cholakkal
cs.AI
要旨
MediX-R1を紹介する。これは医療マルチモーダル大規模言語モデル(MLLM)のためのオープンエンド強化学習(RL)フレームワークであり、多肢選択形式を超えた、臨床的に根拠のある自由形式の回答を可能にする。MediX-R1は、ベースラインの視覚言語バックボーンを、グループベースRLと医療推論に特化した複合報酬でファインチューニングする。報酬は、意味的正しさを厳密なYES/NO判定で評価するLLMベースの精度報酬、言い換えや専門用語のバリエーションを捉える医療埋め込みベースの意味報酬、解釈可能な推論とモダリティ認識を強化する軽量な形式報酬とモダリティ報酬で構成される。このマルチシグナル設計は、従来の検証可能な報酬や多肢選択式のみの報酬では不十分なオープンエンドの出力に対して、安定した情報量の多いフィードバックを提供する。進捗を測定するため、テキストのみのタスクと画像+テキストのタスクの両方に対応する統一評価フレームワークを提案する。これは、脆弱な文字列一致指標の代わりに、参照ベースのLLM-as-judgeを用いて、意味的正しさ、推論、文脈的整合性を捉える。わずか51Kの模擬命令例のみを使用しているにもかかわらず、MediX-R1は標準的な医療LLM(テキストのみ)およびVLM(画像+テキスト)ベンチマークで優れた結果を達成し、強力なオープンソースベースラインを上回り、特にオープンエンドの臨床タスクで大きな向上をもたらす。我々の結果は、包括的な報酬信号とLLMベースの評価を伴うオープンエンドRLが、マルチモーダルモデルにおける信頼性の高い医療推論に向けた実用的な道筋であることを示す。学習済みモデル、精選されたデータセット、ソースコードはhttps://medix.cvmbzuai.comで公開されている。
English
We introduce MediX-R1, an open-ended Reinforcement Learning (RL) framework for medical multimodal large language models (MLLMs) that enables clinically grounded, free-form answers beyond multiple-choice formats. MediX-R1 fine-tunes a baseline vision-language backbone with Group Based RL and a composite reward tailored for medical reasoning: an LLM-based accuracy reward that judges semantic correctness with a strict YES/NO decision, a medical embedding-based semantic reward to capture paraphrases and terminology variants, and lightweight format and modality rewards that enforce interpretable reasoning and modality recognition. This multi-signal design provides stable, informative feedback for open-ended outputs where traditional verifiable or MCQ-only rewards fall short. To measure progress, we propose a unified evaluation framework for both text-only and image+text tasks that uses a Reference-based LLM-as-judge in place of brittle string-overlap metrics, capturing semantic correctness, reasoning, and contextual alignment. Despite using only sim51K instruction examples, MediX-R1 achieves excellent results across standard medical LLM (text-only) and VLM (image + text) benchmarks, outperforming strong open-source baselines and delivering particularly large gains on open-ended clinical tasks. Our results demonstrate that open-ended RL with comprehensive reward signals and LLM-based evaluation is a practical path toward reliable medical reasoning in multimodal models. Our trained models, curated datasets and source code are available at https://medix.cvmbzuai.com