GEMeX-ThinkVG: К мышлению с визуальной привязкой в медицинских вопросах и ответах через обучение с подкреплением
GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning
June 22, 2025
Авторы: Bo Liu, Xiangyu Zhao, Along He, Yidi Chen, Huazhu Fu, Xiao-Ming Wu
cs.AI
Аннотация
Медицинское визуальное ответы на вопросы направлено на поддержку принятия клинических решений, позволяя моделям отвечать на вопросы на естественном языке на основе медицинских изображений. Хотя последние достижения в области мультимодального обучения значительно улучшили производительность, текущие методы все еще страдают от ограниченной надежности ответов и низкой интерпретируемости, что затрудняет понимание и доверие клиницистов и пациентов к ответам, генерируемым моделями. Для решения этой проблемы в данной работе сначала предлагается набор данных "Thinking with Visual Grounding" (ThinkVG), в котором генерация ответа разбивается на промежуточные шаги рассуждения, явно привязывающие соответствующие визуальные области медицинского изображения, тем самым обеспечивая детальную объяснимость. Кроме того, мы представляем новый механизм проверяемого вознаграждения для обучения с подкреплением, который направляет пост-обучение, улучшая согласованность между процессом рассуждения модели и ее окончательным ответом. Примечательно, что наш метод демонстрирует сопоставимую производительность, используя только одну восьмую часть обучающих данных, что подчеркивает эффективность и результативность предложенного подхода. Набор данных доступен по адресу https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.
English
Medical visual question answering aims to support clinical decision-making by
enabling models to answer natural language questions based on medical images.
While recent advances in multi-modal learning have significantly improved
performance, current methods still suffer from limited answer reliability and
poor interpretability, impairing the ability of clinicians and patients to
understand and trust model-generated answers. To address this, this work first
proposes a Thinking with Visual Grounding (ThinkVG) dataset wherein the answer
generation is decomposed into intermediate reasoning steps that explicitly
ground relevant visual regions of the medical image, thereby providing
fine-grained explainability. Furthermore, we introduce a novel verifiable
reward mechanism for reinforcement learning to guide post-training, improving
the alignment between the model's reasoning process and its final answer.
Remarkably, our method achieves comparable performance using only one-eighth of
the training data, demonstrating the efficiency and effectiveness of the
proposal. The dataset is available at
https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.