VG-Refiner: Verso un Ragionamento Radicato e Riferito Raffinato tramite Strumenti mediante Apprendimento per Rinforzo Agente
VG-Refiner: Towards Tool-Refined Referring Grounded Reasoning via Agentic Reinforcement Learning
December 6, 2025
Autori: Yuji Wang, Wenlong Liu, Jingxuan Niu, Haoji Zhang, Yansong Tang
cs.AI
Abstract
Il ragionamento visivo integrato con strumenti (TiVR) ha dimostrato un grande potenziale nel potenziare la risoluzione multimodale dei problemi. Tuttavia, i paradigmi esistenti di TiVR si concentrano principalmente sull'integrazione di vari strumenti visivi tramite apprendimento per rinforzo, trascurando la progettazione di meccanismi di risposta efficaci per gestire output di strumenti inaffidabili o errati. Questa limitazione è particolarmente evidente nei compiti di riferimento e di grounding, dove previsioni inaccurate degli strumenti di rilevamento spesso inducono i modelli TiVR a generare ragionamenti allucinati. Per affrontare questo problema, proponiamo VG-Refiner, il primo framework mirato al ragionamento di riferimento e grounding raffinato dagli strumenti. Tecnicamente, introduciamo un meccanismo a due fasi "think-rethink" che consente al modello di analizzare esplicitamente e rispondere al feedback degli strumenti, insieme a una ricompensa di raffinamento che incentiva una correzione efficace in risposta a risultati scadenti degli strumenti. Inoltre, proponiamo due nuove metriche e stabiliamo protocolli di valutazione equi per misurare sistematicamente la capacità di raffinamento dei modelli attuali. Adottiamo una piccola quantità di dati specifici per il compito per potenziare la capacità di raffinamento di VG-Refiner, ottenendo un miglioramento significativo nell'accuratezza e nella capacità di correzione su benchmark di riferimento e grounding ragionato, preservando al contempo le capacità generali del modello preaddestrato.
English
Tool-integrated visual reasoning (TiVR) has demonstrated great potential in enhancing multimodal problem-solving. However, existing TiVR paradigms mainly focus on integrating various visual tools through reinforcement learning, while neglecting to design effective response mechanisms for handling unreliable or erroneous tool outputs. This limitation is particularly pronounced in referring and grounding tasks, where inaccurate detection tool predictions often mislead TiVR models into generating hallucinated reasoning. To address this issue, we propose the VG-Refiner, the first framework aiming at the tool-refined referring grounded reasoning. Technically, we introduce a two-stage think-rethink mechanism that enables the model to explicitly analyze and respond to tool feedback, along with a refinement reward that encourages effective correction in response to poor tool results. In addition, we propose two new metrics and establish fair evaluation protocols to systematically measure the refinement ability of current models. We adopt a small amount of task-specific data to enhance the refinement capability of VG-Refiner, achieving a significant improvement in accuracy and correction ability on referring and reasoning grounding benchmarks while preserving the general capabilities of the pretrained model.