VG-Refiner: Hacia un Razonamiento Referencial Fundamentado mediante Herramientas y Aprendizaje por Refuerzo Agéntico
VG-Refiner: Towards Tool-Refined Referring Grounded Reasoning via Agentic Reinforcement Learning
December 6, 2025
Autores: Yuji Wang, Wenlong Liu, Jingxuan Niu, Haoji Zhang, Yansong Tang
cs.AI
Resumen
El razonamiento visual integrado con herramientas (TiVR) ha demostrado un gran potencial para mejorar la resolución multimodal de problemas. Sin embargo, los paradigmas existentes de TiVR se centran principalmente en integrar diversas herramientas visuales mediante aprendizaje por refuerzo, descuidando el diseño de mecanismos de respuesta efectivos para manejar resultados de herramientas poco fiables o erróneos. Esta limitación es particularmente pronunciada en tareas de referenciación y localización, donde las predicciones inexactas de las herramientas de detección a menudo inducen a los modelos TiVR a generar razonamientos alucinados. Para abordar este problema, proponemos VG-Refiner, el primer marco orientado al razonamiento referencial localizado refinado por herramientas. Técnicamente, introducimos un mecanismo de pensar-repensar en dos etapas que permite al modelo analizar y responder explícitamente a la retroalimentación de las herramientas, junto con una recompensa de refinamiento que fomenta la corrección efectiva ante resultados deficientes de las herramientas. Adicionalmente, proponemos dos nuevas métricas y establecemos protocolos de evaluación justos para medir sistemáticamente la capacidad de refinamiento de los modelos actuales. Utilizamos una pequeña cantidad de datos específicos de la tarea para mejorar la capacidad de refinamiento de VG-Refiner, logrando una mejora significativa en precisión y capacidad de corrección en benchmarks de referenciación y localización razonada, mientras se preservan las capacidades generales del modelo preentrenado.
English
Tool-integrated visual reasoning (TiVR) has demonstrated great potential in enhancing multimodal problem-solving. However, existing TiVR paradigms mainly focus on integrating various visual tools through reinforcement learning, while neglecting to design effective response mechanisms for handling unreliable or erroneous tool outputs. This limitation is particularly pronounced in referring and grounding tasks, where inaccurate detection tool predictions often mislead TiVR models into generating hallucinated reasoning. To address this issue, we propose the VG-Refiner, the first framework aiming at the tool-refined referring grounded reasoning. Technically, we introduce a two-stage think-rethink mechanism that enables the model to explicitly analyze and respond to tool feedback, along with a refinement reward that encourages effective correction in response to poor tool results. In addition, we propose two new metrics and establish fair evaluation protocols to systematically measure the refinement ability of current models. We adopt a small amount of task-specific data to enhance the refinement capability of VG-Refiner, achieving a significant improvement in accuracy and correction ability on referring and reasoning grounding benchmarks while preserving the general capabilities of the pretrained model.