GEMeX-ThinkVG: Naar Denken met Visuele Verankering in Medische VQA via Reinforcement Learning
GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning
June 22, 2025
Auteurs: Bo Liu, Xiangyu Zhao, Along He, Yidi Chen, Huazhu Fu, Xiao-Ming Wu
cs.AI
Samenvatting
Medische visuele vraagbeantwoording heeft als doel klinische besluitvorming te ondersteunen door modellen in staat te stellen natuurlijke taalvragen te beantwoorden op basis van medische beelden. Hoewel recente vooruitgang in multimodaal leren de prestaties aanzienlijk heeft verbeterd, lijden huidige methoden nog steeds aan beperkte antwoordbetrouwbaarheid en slechte interpreteerbaarheid, wat het vermogen van clinici en patiënten om modelgegenereerde antwoorden te begrijpen en te vertrouwen belemmert. Om dit aan te pakken, stelt dit werk eerst een Thinking with Visual Grounding (ThinkVG)-dataset voor, waarbij de antwoordgeneratie wordt opgesplitst in tussenliggende redeneerstappen die expliciet relevante visuele regio's van het medische beeld verankeren, waardoor fijnmazige uitlegbaarheid wordt geboden. Bovendien introduceren we een nieuw verifieerbaar beloningsmechanisme voor reinforcement learning om post-training te begeleiden, waardoor de afstemming tussen het redeneerproces van het model en het uiteindelijke antwoord wordt verbeterd. Opmerkelijk is dat onze methode vergelijkbare prestaties bereikt met slechts een achtste van de trainingsdata, wat de efficiëntie en effectiviteit van het voorstel aantoont. De dataset is beschikbaar op https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.
English
Medical visual question answering aims to support clinical decision-making by
enabling models to answer natural language questions based on medical images.
While recent advances in multi-modal learning have significantly improved
performance, current methods still suffer from limited answer reliability and
poor interpretability, impairing the ability of clinicians and patients to
understand and trust model-generated answers. To address this, this work first
proposes a Thinking with Visual Grounding (ThinkVG) dataset wherein the answer
generation is decomposed into intermediate reasoning steps that explicitly
ground relevant visual regions of the medical image, thereby providing
fine-grained explainability. Furthermore, we introduce a novel verifiable
reward mechanism for reinforcement learning to guide post-training, improving
the alignment between the model's reasoning process and its final answer.
Remarkably, our method achieves comparable performance using only one-eighth of
the training data, demonstrating the efficiency and effectiveness of the
proposal. The dataset is available at
https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.