GEMeX-ThinkVG: 강화 학습을 통한 의료 VQA에서 시각적 근거를 활용한 사고 방향으로
GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning
June 22, 2025
저자: Bo Liu, Xiangyu Zhao, Along He, Yidi Chen, Huazhu Fu, Xiao-Ming Wu
cs.AI
초록
의료 시각 질의응답은 의료 이미지를 기반으로 자연어 질문에 답변할 수 있는 모델을 통해 임상적 의사결정을 지원하는 것을 목표로 합니다. 최근 다중 모달 학습의 발전으로 성능이 크게 향상되었지만, 현재의 방법들은 여전히 제한된 답변 신뢰도와 낮은 해석 가능성으로 인해 임상의와 환자가 모델이 생성한 답변을 이해하고 신뢰하는 데 어려움을 겪고 있습니다. 이를 해결하기 위해, 본 연구에서는 먼저 '시각적 근거를 통한 사고(ThinkVG)' 데이터셋을 제안합니다. 이 데이터셋에서는 답변 생성이 중간 추론 단계로 분해되어 의료 이미지의 관련 시각적 영역을 명시적으로 근거로 삼아 세밀한 설명 가능성을 제공합니다. 더 나아가, 우리는 강화 학습을 위한 새로운 검증 가능한 보상 메커니즘을 도입하여 사후 훈련을 안내하고, 모델의 추론 과정과 최종 답변 간의 일치성을 개선합니다. 특히, 우리의 방법은 훈련 데이터의 1/8만 사용하여도 비슷한 성능을 달성함으로써 제안의 효율성과 효과성을 입증합니다. 이 데이터셋은 https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG에서 확인할 수 있습니다.
English
Medical visual question answering aims to support clinical decision-making by
enabling models to answer natural language questions based on medical images.
While recent advances in multi-modal learning have significantly improved
performance, current methods still suffer from limited answer reliability and
poor interpretability, impairing the ability of clinicians and patients to
understand and trust model-generated answers. To address this, this work first
proposes a Thinking with Visual Grounding (ThinkVG) dataset wherein the answer
generation is decomposed into intermediate reasoning steps that explicitly
ground relevant visual regions of the medical image, thereby providing
fine-grained explainability. Furthermore, we introduce a novel verifiable
reward mechanism for reinforcement learning to guide post-training, improving
the alignment between the model's reasoning process and its final answer.
Remarkably, our method achieves comparable performance using only one-eighth of
the training data, demonstrating the efficiency and effectiveness of the
proposal. The dataset is available at
https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.