GEMeX-ThinkVG: Verso il ragionamento con grounding visivo nel VQA medico tramite apprendimento per rinforzo
GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning
June 22, 2025
Autori: Bo Liu, Xiangyu Zhao, Along He, Yidi Chen, Huazhu Fu, Xiao-Ming Wu
cs.AI
Abstract
Il risponditore visivo medico mira a supportare il processo decisionale clinico consentendo ai modelli di rispondere a domande in linguaggio naturale basate su immagini mediche. Sebbene i recenti progressi nell'apprendimento multimodale abbiano migliorato significativamente le prestazioni, i metodi attuali soffrono ancora di un'affidabilità limitata delle risposte e di una scarsa interpretabilità, compromettendo la capacità di medici e pazienti di comprendere e fidarsi delle risposte generate dai modelli. Per affrontare questo problema, questo lavoro propone innanzitutto un dataset chiamato Thinking with Visual Grounding (ThinkVG), in cui la generazione della risposta viene scomposta in passaggi di ragionamento intermedi che ancorano esplicitamente le regioni visive rilevanti dell'immagine medica, fornendo così una spiegabilità granulare. Inoltre, introduciamo un nuovo meccanismo di ricompensa verificabile per l'apprendimento per rinforzo, finalizzato a guidare il post-addestramento, migliorando l'allineamento tra il processo di ragionamento del modello e la sua risposta finale. In modo notevole, il nostro metodo raggiunge prestazioni comparabili utilizzando solo un ottavo dei dati di addestramento, dimostrando l'efficienza e l'efficacia della proposta. Il dataset è disponibile all'indirizzo https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.
English
Medical visual question answering aims to support clinical decision-making by
enabling models to answer natural language questions based on medical images.
While recent advances in multi-modal learning have significantly improved
performance, current methods still suffer from limited answer reliability and
poor interpretability, impairing the ability of clinicians and patients to
understand and trust model-generated answers. To address this, this work first
proposes a Thinking with Visual Grounding (ThinkVG) dataset wherein the answer
generation is decomposed into intermediate reasoning steps that explicitly
ground relevant visual regions of the medical image, thereby providing
fine-grained explainability. Furthermore, we introduce a novel verifiable
reward mechanism for reinforcement learning to guide post-training, improving
the alignment between the model's reasoning process and its final answer.
Remarkably, our method achieves comparable performance using only one-eighth of
the training data, demonstrating the efficiency and effectiveness of the
proposal. The dataset is available at
https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.