GEMeX-ThinkVG: Ansätze zum Denken mit visueller Verankerung in medizinischer VQA durch Reinforcement Learning
GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning
June 22, 2025
Autoren: Bo Liu, Xiangyu Zhao, Along He, Yidi Chen, Huazhu Fu, Xiao-Ming Wu
cs.AI
Zusammenfassung
Medizinisches visuelles Frage-Antworten zielt darauf ab, die klinische Entscheidungsfindung zu unterstützen, indem es Modellen ermöglicht, natürliche Sprachfragen auf der Grundlage medizinischer Bilder zu beantworten. Obwohl jüngste Fortschritte im multimodalen Lernen die Leistung erheblich verbessert haben, leiden aktuelle Methoden immer noch unter begrenzter Antwortzuverlässigkeit und schlechter Interpretierbarkeit, was die Fähigkeit von Klinikern und Patienten beeinträchtigt, modellgenerierte Antworten zu verstehen und ihnen zu vertrauen. Um dies zu adressieren, schlägt diese Arbeit zunächst einen „Thinking with Visual Grounding“ (ThinkVG)-Datensatz vor, bei dem die Antwortgenerierung in Zwischenschritte der Argumentation zerlegt wird, die relevante visuelle Regionen des medizinischen Bildes explizit verankern und dadurch eine feinkörnige Erklärbarkeit bieten. Darüber hinaus führen wir einen neuartigen verifizierbaren Belohnungsmechanismus für bestärkendes Lernen ein, um das Post-Training zu steuern und die Übereinstimmung zwischen dem Argumentationsprozess des Modells und seiner endgültigen Antwort zu verbessern. Bemerkenswerterweise erreicht unsere Methode vergleichbare Leistungen mit nur einem Achtel der Trainingsdaten, was die Effizienz und Wirksamkeit des Vorschlags demonstriert. Der Datensatz ist verfügbar unter https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.
English
Medical visual question answering aims to support clinical decision-making by
enabling models to answer natural language questions based on medical images.
While recent advances in multi-modal learning have significantly improved
performance, current methods still suffer from limited answer reliability and
poor interpretability, impairing the ability of clinicians and patients to
understand and trust model-generated answers. To address this, this work first
proposes a Thinking with Visual Grounding (ThinkVG) dataset wherein the answer
generation is decomposed into intermediate reasoning steps that explicitly
ground relevant visual regions of the medical image, thereby providing
fine-grained explainability. Furthermore, we introduce a novel verifiable
reward mechanism for reinforcement learning to guide post-training, improving
the alignment between the model's reasoning process and its final answer.
Remarkably, our method achieves comparable performance using only one-eighth of
the training data, demonstrating the efficiency and effectiveness of the
proposal. The dataset is available at
https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.