VG-Refiner : Vers un raisonnement ancré par référence à l'aide d'outils via l'apprentissage par renforcement agentique
VG-Refiner: Towards Tool-Refined Referring Grounded Reasoning via Agentic Reinforcement Learning
December 6, 2025
papers.authors: Yuji Wang, Wenlong Liu, Jingxuan Niu, Haoji Zhang, Yansong Tang
cs.AI
papers.abstract
Le raisonnement visuel intégré aux outils (TiVR) a démontré un grand potentiel pour améliorer la résolution de problèmes multimodaux. Cependant, les paradigmes existants de TiVR se concentrent principalement sur l'intégration de divers outils visuels par apprentissage par renforcement, tout en négligeant la conception de mécanismes de réponse efficaces pour traiter les sorties d'outils peu fiables ou erronées. Cette limitation est particulièrement prononcée dans les tâches de référencement et d'ancrage, où les prédictions inexactes des outils de détection induisent souvent les modèles TiVR en erreur, générant un raisonnement halluciné. Pour résoudre ce problème, nous proposons le VG-Refiner, le premier cadre visant un raisonnement ancré par référencement raffiné par outil. Techniquement, nous introduisons un mécanisme à deux étapes de réflexion-reconsidération qui permet au modèle d'analyser et de répondre explicitement aux retours des outils, ainsi qu'une récompense de raffinement qui encourage une correction efficace face à de mauvais résultats d'outils. De plus, nous proposons deux nouvelles métriques et établissons des protocoles d'évaluation équitables pour mesurer systématiquement la capacité de raffinement des modèles actuels. Nous adoptons une petite quantité de données spécifiques à la tâche pour renforcer la capacité de raffinement de VG-Refiner, obtenant une amélioration significative de la précision et de la capacité de correction sur des benchmarks de référencement et d'ancrage raisonné, tout en préservant les capacités générales du modèle préentraîné.
English
Tool-integrated visual reasoning (TiVR) has demonstrated great potential in enhancing multimodal problem-solving. However, existing TiVR paradigms mainly focus on integrating various visual tools through reinforcement learning, while neglecting to design effective response mechanisms for handling unreliable or erroneous tool outputs. This limitation is particularly pronounced in referring and grounding tasks, where inaccurate detection tool predictions often mislead TiVR models into generating hallucinated reasoning. To address this issue, we propose the VG-Refiner, the first framework aiming at the tool-refined referring grounded reasoning. Technically, we introduce a two-stage think-rethink mechanism that enables the model to explicitly analyze and respond to tool feedback, along with a refinement reward that encourages effective correction in response to poor tool results. In addition, we propose two new metrics and establish fair evaluation protocols to systematically measure the refinement ability of current models. We adopt a small amount of task-specific data to enhance the refinement capability of VG-Refiner, achieving a significant improvement in accuracy and correction ability on referring and reasoning grounding benchmarks while preserving the general capabilities of the pretrained model.