VG-Refiner: К инструментально-уточненному обоснованному рассуждению с референцией посредством агентного обучения с подкреплением
VG-Refiner: Towards Tool-Refined Referring Grounded Reasoning via Agentic Reinforcement Learning
December 6, 2025
Авторы: Yuji Wang, Wenlong Liu, Jingxuan Niu, Haoji Zhang, Yansong Tang
cs.AI
Аннотация
Визуальное рассуждение с интеграцией инструментов (TiVR) продемонстрировало значительный потенциал в решении мультимодальных задач. Однако существующие парадигмы TiVR в основном сосредоточены на интеграции различных визуальных инструментов с помощью обучения с подкреплением, пренебрегая разработкой эффективных механизмов реакции на ненадежные или ошибочные результаты работы инструментов. Это ограничение особенно заметно в задачах референции и локализации, где неточные прогнозы инструментов детекции часто вводят модели TiVR в заблуждение, приводя к галлюцинациям в рассуждениях. Для решения этой проблемы мы предлагаем VG-Refiner — первую структуру, направленную на уточняющую референцию и обоснованное рассуждение с помощью инструментов. Технически мы вводим двухэтапный механизм «обдумывание-переосмысление», который позволяет модели явно анализировать и реагировать на обратную связь от инструментов, а также механизм вознаграждения за уточнение, стимулирующий эффективную коррекцию при неудовлетворительных результатах работы инструментов. Дополнительно мы предлагаем две новые метрики и устанавливаем объективные протоколы оценки для систематического измерения способности к уточнению у современных моделей. Мы используем небольшой объем специфичных для задачи данных для повышения способности VG-Refiner к уточнению, достигая значительного улучшения точности и корректирующей способности на бенчмарках референции и обоснованного рассуждения при сохранении общих возможностей предварительно обученной модели.
English
Tool-integrated visual reasoning (TiVR) has demonstrated great potential in enhancing multimodal problem-solving. However, existing TiVR paradigms mainly focus on integrating various visual tools through reinforcement learning, while neglecting to design effective response mechanisms for handling unreliable or erroneous tool outputs. This limitation is particularly pronounced in referring and grounding tasks, where inaccurate detection tool predictions often mislead TiVR models into generating hallucinated reasoning. To address this issue, we propose the VG-Refiner, the first framework aiming at the tool-refined referring grounded reasoning. Technically, we introduce a two-stage think-rethink mechanism that enables the model to explicitly analyze and respond to tool feedback, along with a refinement reward that encourages effective correction in response to poor tool results. In addition, we propose two new metrics and establish fair evaluation protocols to systematically measure the refinement ability of current models. We adopt a small amount of task-specific data to enhance the refinement capability of VG-Refiner, achieving a significant improvement in accuracy and correction ability on referring and reasoning grounding benchmarks while preserving the general capabilities of the pretrained model.