ChatPaper.aiChatPaper

GEMeX-ThinkVG : Vers une réflexion ancrée visuellement dans les systèmes de questions-réponses médicales via l'apprentissage par renforcement

GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning

June 22, 2025
Auteurs: Bo Liu, Xiangyu Zhao, Along He, Yidi Chen, Huazhu Fu, Xiao-Ming Wu
cs.AI

Résumé

La réponse visuelle à des questions médicales vise à soutenir la prise de décision clinique en permettant aux modèles de répondre à des questions en langage naturel basées sur des images médicales. Bien que les récents progrès en apprentissage multimodal aient considérablement amélioré les performances, les méthodes actuelles souffrent encore d'une fiabilité limitée des réponses et d'une faible interprétabilité, ce qui entrave la capacité des cliniciens et des patients à comprendre et à faire confiance aux réponses générées par les modèles. Pour remédier à cela, ce travail propose d'abord un ensemble de données intitulé *Thinking with Visual Grounding* (ThinkVG), dans lequel la génération de réponses est décomposée en étapes de raisonnement intermédiaires qui ancrent explicitement les régions visuelles pertinentes de l'image médicale, offrant ainsi une explication fine et détaillée. En outre, nous introduisons un nouveau mécanisme de récompense vérifiable pour l'apprentissage par renforcement afin de guider l'après-entraînement, améliorant ainsi l'alignement entre le processus de raisonnement du modèle et sa réponse finale. De manière remarquable, notre méthode atteint des performances comparables en utilisant seulement un huitième des données d'entraînement, démontrant l'efficacité et l'efficience de la proposition. L'ensemble de données est disponible à l'adresse suivante : https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.
English
Medical visual question answering aims to support clinical decision-making by enabling models to answer natural language questions based on medical images. While recent advances in multi-modal learning have significantly improved performance, current methods still suffer from limited answer reliability and poor interpretability, impairing the ability of clinicians and patients to understand and trust model-generated answers. To address this, this work first proposes a Thinking with Visual Grounding (ThinkVG) dataset wherein the answer generation is decomposed into intermediate reasoning steps that explicitly ground relevant visual regions of the medical image, thereby providing fine-grained explainability. Furthermore, we introduce a novel verifiable reward mechanism for reinforcement learning to guide post-training, improving the alignment between the model's reasoning process and its final answer. Remarkably, our method achieves comparable performance using only one-eighth of the training data, demonstrating the efficiency and effectiveness of the proposal. The dataset is available at https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.
PDF31June 24, 2025