GEMeX-ThinkVG: Hacia el razonamiento con anclaje visual en VQA médica mediante aprendizaje por refuerzo
GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning
June 22, 2025
Autores: Bo Liu, Xiangyu Zhao, Along He, Yidi Chen, Huazhu Fu, Xiao-Ming Wu
cs.AI
Resumen
La respuesta visual a preguntas médicas tiene como objetivo apoyar la toma de decisiones clínicas al permitir que los modelos respondan preguntas en lenguaje natural basadas en imágenes médicas. Si bien los avances recientes en el aprendizaje multimodal han mejorado significativamente el rendimiento, los métodos actuales aún adolecen de una fiabilidad limitada en las respuestas y una escasa interpretabilidad, lo que dificulta que los clínicos y los pacientes comprendan y confíen en las respuestas generadas por los modelos. Para abordar este problema, este trabajo propone primero un conjunto de datos denominado "Pensamiento con Anclaje Visual" (ThinkVG), en el que la generación de respuestas se descompone en pasos intermedios de razonamiento que anclan explícitamente las regiones visuales relevantes de la imagen médica, proporcionando así una explicabilidad detallada. Además, introducimos un novedoso mecanismo de recompensa verificable para el aprendizaje por refuerzo que guía el posentrenamiento, mejorando la alineación entre el proceso de razonamiento del modelo y su respuesta final. Notablemente, nuestro método logra un rendimiento comparable utilizando solo un octavo de los datos de entrenamiento, lo que demuestra la eficiencia y efectividad de la propuesta. El conjunto de datos está disponible en https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.
English
Medical visual question answering aims to support clinical decision-making by
enabling models to answer natural language questions based on medical images.
While recent advances in multi-modal learning have significantly improved
performance, current methods still suffer from limited answer reliability and
poor interpretability, impairing the ability of clinicians and patients to
understand and trust model-generated answers. To address this, this work first
proposes a Thinking with Visual Grounding (ThinkVG) dataset wherein the answer
generation is decomposed into intermediate reasoning steps that explicitly
ground relevant visual regions of the medical image, thereby providing
fine-grained explainability. Furthermore, we introduce a novel verifiable
reward mechanism for reinforcement learning to guide post-training, improving
the alignment between the model's reasoning process and its final answer.
Remarkably, our method achieves comparable performance using only one-eighth of
the training data, demonstrating the efficiency and effectiveness of the
proposal. The dataset is available at
https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.