VG-Refiner: Auf dem Weg zu werkzeugverfeinertem referenziellem geerdetem Schließen durch agentenbasiertes bestärkendes Lernen
VG-Refiner: Towards Tool-Refined Referring Grounded Reasoning via Agentic Reinforcement Learning
December 6, 2025
papers.authors: Yuji Wang, Wenlong Liu, Jingxuan Niu, Haoji Zhang, Yansong Tang
cs.AI
papers.abstract
Tool-integrated visual reasoning (TiVR) hat großes Potenzial zur Verbesserung multimodaler Problemlösungsfähigkeiten gezeigt. Bisherige TiVR-Ansätze konzentrieren sich jedoch hauptsächlich auf die Integration verschiedener visueller Werkzeuge durch Reinforcement Learning, ohne effektive Mechanismen zur Behandlung unzuverlässiger oder fehlerhafter Werkzeugausgaben zu entwickeln. Diese Einschränkung zeigt sich besonders bei Referenzierungs- und Grounding-Aufgaben, bei denen ungenaue Vorhersagen von Detektionswerkzeugen TiVR-Modelle oft zu halluzinierten Schlussfolgerungen verleiten. Um dieses Problem zu lösen, schlagen wir den VG-Refiner vor, den ersten Rahmenansatz für tool-gestütztes, verfeinertes referenzierendes Grounding. Technisch führen wir einen Zwei-Stufen-Denk- und Überdenk-Mechanismus ein, der es dem Modell ermöglicht, Werkzeugrückmeldungen explizit zu analysieren und darauf zu reagieren, ergänzt durch einen Verfeinerungsbonus, der effektive Korrekturen bei schlechten Werkzeugeergebnissen fördert. Zusätzlich schlagen wir zwei neue Metriken vor und etablieren faire Bewertungsprotokolle, um die Verfeinerungsfähigkeit aktueller Modelle systematisch zu messen. Wir nutzen eine kleine Menge aufgabenspezifischer Daten, um die Verfeinerungsfähigkeit des VG-Refiner zu steigern, und erzielen dabei eine signifikante Verbesserung der Genauigkeit und Korrekturfähigkeit in Referenzierungs- und Reasoning-Grounding-Benchmarks, während die allgemeinen Fähigkeiten des vortrainierten Modells erhalten bleiben.
English
Tool-integrated visual reasoning (TiVR) has demonstrated great potential in enhancing multimodal problem-solving. However, existing TiVR paradigms mainly focus on integrating various visual tools through reinforcement learning, while neglecting to design effective response mechanisms for handling unreliable or erroneous tool outputs. This limitation is particularly pronounced in referring and grounding tasks, where inaccurate detection tool predictions often mislead TiVR models into generating hallucinated reasoning. To address this issue, we propose the VG-Refiner, the first framework aiming at the tool-refined referring grounded reasoning. Technically, we introduce a two-stage think-rethink mechanism that enables the model to explicitly analyze and respond to tool feedback, along with a refinement reward that encourages effective correction in response to poor tool results. In addition, we propose two new metrics and establish fair evaluation protocols to systematically measure the refinement ability of current models. We adopt a small amount of task-specific data to enhance the refinement capability of VG-Refiner, achieving a significant improvement in accuracy and correction ability on referring and reasoning grounding benchmarks while preserving the general capabilities of the pretrained model.