MedVLM-R1: 強化学習を通じてビジョン言語モデル(VLM)の医療推論能力を奨励する
MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning
February 26, 2025
著者: Jiazhen Pan, Che Liu, Junde Wu, Fenglin Liu, Jiayuan Zhu, Hongwei Bran Li, Chen Chen, Cheng Ouyang, Daniel Rueckert
cs.AI
要旨
推論は、医用画像解析の進歩において重要なフロンティアであり、透明性と信頼性は臨床医の信頼と規制承認の両方で中心的な役割を果たします。医用ビジュアル言語モデル(VLMs)は放射線学的タスクにおいて有望であるものの、既存のほとんどのVLMsは根底にある推論を明らかにせずに最終的な回答を提供するに過ぎません。このギャップを埋めるために、透明性と信頼性を向上させるために自然言語推論を明示的に生成する医用VLMであるMedVLM-R1を紹介します。しばしばトレーニング分布にオーバーフィットし、真の推論を促進できない監督されたファインチューニング(SFT)に頼る代わりに、MedVLM-R1は、推論参照を使用せずに人間が解釈可能な推論経路を発見するようモデルにインセンティブを与える強化学習フレームワークを採用しています。600のビジュアル質問応答サンプルと2Bのモデルパラメータという限られたトレーニングデータにもかかわらず、MedVLM-R1はMRI、CT、X線のベンチマーク全体で精度を55.11%から78.22%に向上させ、100万以上のサンプルでトレーニングされたより大きなモデルを凌駕しています。また、分布外のタスクにおいて堅牢なドメイン汎化を示しています。医用画像解析を明示的な推論と統合することで、MedVLM-R1は臨床実践における信頼性の高い解釈可能なAIに向けた画期的な一歩を示しています。
English
Reasoning is a critical frontier for advancing medical image analysis, where
transparency and trustworthiness play a central role in both clinician trust
and regulatory approval. Although Medical Visual Language Models (VLMs) show
promise for radiological tasks, most existing VLMs merely produce final answers
without revealing the underlying reasoning. To address this gap, we introduce
MedVLM-R1, a medical VLM that explicitly generates natural language reasoning
to enhance transparency and trustworthiness. Instead of relying on supervised
fine-tuning (SFT), which often suffers from overfitting to training
distributions and fails to foster genuine reasoning, MedVLM-R1 employs a
reinforcement learning framework that incentivizes the model to discover
human-interpretable reasoning paths without using any reasoning references.
Despite limited training data (600 visual question answering samples) and model
parameters (2B), MedVLM-R1 boosts accuracy from 55.11% to 78.22% across MRI,
CT, and X-ray benchmarks, outperforming larger models trained on over a million
samples. It also demonstrates robust domain generalization under
out-of-distribution tasks. By unifying medical image analysis with explicit
reasoning, MedVLM-R1 marks a pivotal step toward trustworthy and interpretable
AI in clinical practice.Summary
AI-Generated Summary