GEMeX-ThinkVG: Hacia el razonamiento con anclaje visual en VQA médica mediante aprendizaje por refuerzo

Resumen

La respuesta visual a preguntas médicas tiene como objetivo apoyar la toma de decisiones clínicas al permitir que los modelos respondan preguntas en lenguaje natural basadas en imágenes médicas. Si bien los avances recientes en el aprendizaje multimodal han mejorado significativamente el rendimiento, los métodos actuales aún adolecen de una fiabilidad limitada en las respuestas y una escasa interpretabilidad, lo que dificulta que los clínicos y los pacientes comprendan y confíen en las respuestas generadas por los modelos. Para abordar este problema, este trabajo propone primero un conjunto de datos denominado "Pensamiento con Anclaje Visual" (ThinkVG), en el que la generación de respuestas se descompone en pasos intermedios de razonamiento que anclan explícitamente las regiones visuales relevantes de la imagen médica, proporcionando así una explicabilidad detallada. Además, introducimos un novedoso mecanismo de recompensa verificable para el aprendizaje por refuerzo que guía el posentrenamiento, mejorando la alineación entre el proceso de razonamiento del modelo y su respuesta final. Notablemente, nuestro método logra un rendimiento comparable utilizando solo un octavo de los datos de entrenamiento, lo que demuestra la eficiencia y efectividad de la propuesta. El conjunto de datos está disponible en https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.

English

Medical visual question answering aims to support clinical decision-making by enabling models to answer natural language questions based on medical images. While recent advances in multi-modal learning have significantly improved performance, current methods still suffer from limited answer reliability and poor interpretability, impairing the ability of clinicians and patients to understand and trust model-generated answers. To address this, this work first proposes a Thinking with Visual Grounding (ThinkVG) dataset wherein the answer generation is decomposed into intermediate reasoning steps that explicitly ground relevant visual regions of the medical image, thereby providing fine-grained explainability. Furthermore, we introduce a novel verifiable reward mechanism for reinforcement learning to guide post-training, improving the alignment between the model's reasoning process and its final answer. Remarkably, our method achieves comparable performance using only one-eighth of the training data, demonstrating the efficiency and effectiveness of the proposal. The dataset is available at https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.

GEMeX-ThinkVG: Hacia el razonamiento con anclaje visual en VQA médica mediante aprendizaje por refuerzo

GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning

Resumen

Support