ChatPaper.aiChatPaper

GEMeX-ThinkVG: Rumando ao Pensamento com Fundamentação Visual em VQA Médico via Aprendizado por Reforço

GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning

June 22, 2025
Autores: Bo Liu, Xiangyu Zhao, Along He, Yidi Chen, Huazhu Fu, Xiao-Ming Wu
cs.AI

Resumo

A resposta visual a perguntas médicas visa apoiar a tomada de decisão clínica, permitindo que modelos respondam a perguntas em linguagem natural com base em imagens médicas. Embora avanços recentes em aprendizado multimodal tenham melhorado significativamente o desempenho, os métodos atuais ainda sofrem com confiabilidade limitada das respostas e baixa interpretabilidade, prejudicando a capacidade de clínicos e pacientes de entender e confiar nas respostas geradas pelos modelos. Para abordar isso, este trabalho propõe, em primeiro lugar, um conjunto de dados chamado Thinking with Visual Grounding (ThinkVG), no qual a geração de respostas é decomposta em etapas intermediárias de raciocínio que explicitamente fundamentam regiões visuais relevantes da imagem médica, fornecendo assim explicabilidade em nível detalhado. Além disso, introduzimos um novo mecanismo de recompensa verificável para aprendizado por reforço, a fim de orientar o pós-treinamento, melhorando o alinhamento entre o processo de raciocínio do modelo e sua resposta final. Notavelmente, nosso método alcança desempenho comparável utilizando apenas um oitavo dos dados de treinamento, demonstrando a eficiência e eficácia da proposta. O conjunto de dados está disponível em https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.
English
Medical visual question answering aims to support clinical decision-making by enabling models to answer natural language questions based on medical images. While recent advances in multi-modal learning have significantly improved performance, current methods still suffer from limited answer reliability and poor interpretability, impairing the ability of clinicians and patients to understand and trust model-generated answers. To address this, this work first proposes a Thinking with Visual Grounding (ThinkVG) dataset wherein the answer generation is decomposed into intermediate reasoning steps that explicitly ground relevant visual regions of the medical image, thereby providing fine-grained explainability. Furthermore, we introduce a novel verifiable reward mechanism for reinforcement learning to guide post-training, improving the alignment between the model's reasoning process and its final answer. Remarkably, our method achieves comparable performance using only one-eighth of the training data, demonstrating the efficiency and effectiveness of the proposal. The dataset is available at https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.
PDF31June 24, 2025