GEMeX-ThinkVG: 強化学習による医療視覚質問応答における視覚的基盤を伴う思考へのアプローチ
GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning
June 22, 2025
著者: Bo Liu, Xiangyu Zhao, Along He, Yidi Chen, Huazhu Fu, Xiao-Ming Wu
cs.AI
要旨
医療視覚質問応答は、医療画像に基づいて自然言語の質問に答えるモデルを可能にすることで、臨床意思決定を支援することを目指しています。近年のマルチモーダル学習の進歩により性能は大幅に向上しましたが、現在の手法では回答の信頼性が限定的で、解釈可能性も低いという課題があり、臨床医や患者がモデル生成の回答を理解し信頼する能力を損なっています。この問題に対処するため、本研究ではまず「Thinking with Visual Grounding (ThinkVG)」データセットを提案します。このデータセットでは、回答生成が中間推論ステップに分解され、医療画像の関連する視覚領域を明示的に基づかせることで、きめ細かい説明可能性を提供します。さらに、強化学習のための新しい検証可能な報酬メカニズムを導入し、ポストトレーニングをガイドすることで、モデルの推論プロセスと最終的な回答の整合性を向上させます。注目すべきは、提案手法がトレーニングデータのわずか8分の1を使用して同等の性能を達成し、その効率性と有効性を実証している点です。データセットはhttps://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVGで公開されています。
English
Medical visual question answering aims to support clinical decision-making by
enabling models to answer natural language questions based on medical images.
While recent advances in multi-modal learning have significantly improved
performance, current methods still suffer from limited answer reliability and
poor interpretability, impairing the ability of clinicians and patients to
understand and trust model-generated answers. To address this, this work first
proposes a Thinking with Visual Grounding (ThinkVG) dataset wherein the answer
generation is decomposed into intermediate reasoning steps that explicitly
ground relevant visual regions of the medical image, thereby providing
fine-grained explainability. Furthermore, we introduce a novel verifiable
reward mechanism for reinforcement learning to guide post-training, improving
the alignment between the model's reasoning process and its final answer.
Remarkably, our method achieves comparable performance using only one-eighth of
the training data, demonstrating the efficiency and effectiveness of the
proposal. The dataset is available at
https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.