VG-Refiner: Op weg naar gereedschapsverfijnd verwijzend gegrond redeneren via agent-gebaseerd reinforcement learning
VG-Refiner: Towards Tool-Refined Referring Grounded Reasoning via Agentic Reinforcement Learning
December 6, 2025
Auteurs: Yuji Wang, Wenlong Liu, Jingxuan Niu, Haoji Zhang, Yansong Tang
cs.AI
Samenvatting
Tool-geïntegreerd visueel redeneren (TiVR) heeft groot potentieel getoond voor het verbeteren van multimodale probleemoplossing. Bestaande TiVR-paradigma's richten zich echter voornamelijk op het integreren van diverse visuele tools via reinforcement learning, waarbij effectieve responsmechanismen voor het omgaan met onbetrouwbare of foutieve tooluitkomsten worden verwaarloosd. Deze beperking is vooral prominent bij verwijzings- en grondslagstaken, waar onnauwkeurige detectietoolvoorspellingen TiVR-modellen vaak misleiden tot het genereren van hallucinatoir redeneren. Om dit probleem aan te pakken, stellen we de VG-Refiner voor, het eerste raamwerk dat gericht is op tool-verfijnd verwijzingsgebonden redeneren. Technisch introduceren we een tweefasen denk-herevalueringsmechanisme dat het model in staat stelt expliciet toolfeedback te analyseren en erop te reageren, samen met een verfijningsbeloning die effectieve correctie aanmoedigt bij slechte toolresultaten. Daarnaast stellen we twee nieuwe metrieken voor en stellen eerlijke evaluatieprotocollen op om het verfijningsvermogen van huidige modellen systematisch te meten. We gebruiken een kleine hoeveelheid taakspecifieke data om het verfijningsvermogen van VG-Refiner te versterken, wat resulteert in een significante verbetering in nauwkeurigheid en correctievermogen op verwijzings- en redeneergrondslagbenchmarks, terwijl de algemene capaciteiten van het vooraf getrainde model behouden blijven.
English
Tool-integrated visual reasoning (TiVR) has demonstrated great potential in enhancing multimodal problem-solving. However, existing TiVR paradigms mainly focus on integrating various visual tools through reinforcement learning, while neglecting to design effective response mechanisms for handling unreliable or erroneous tool outputs. This limitation is particularly pronounced in referring and grounding tasks, where inaccurate detection tool predictions often mislead TiVR models into generating hallucinated reasoning. To address this issue, we propose the VG-Refiner, the first framework aiming at the tool-refined referring grounded reasoning. Technically, we introduce a two-stage think-rethink mechanism that enables the model to explicitly analyze and respond to tool feedback, along with a refinement reward that encourages effective correction in response to poor tool results. In addition, we propose two new metrics and establish fair evaluation protocols to systematically measure the refinement ability of current models. We adopt a small amount of task-specific data to enhance the refinement capability of VG-Refiner, achieving a significant improvement in accuracy and correction ability on referring and reasoning grounding benchmarks while preserving the general capabilities of the pretrained model.