VG-Refiner: 에이전트 강화 학습을 통한 도구 정제 참조 기반 추론
VG-Refiner: Towards Tool-Refined Referring Grounded Reasoning via Agentic Reinforcement Learning
December 6, 2025
저자: Yuji Wang, Wenlong Liu, Jingxuan Niu, Haoji Zhang, Yansong Tang
cs.AI
초록
도구 통합 시각 추론(TiVR)은 다중 모드 문제 해결 능력 향상에 큰 잠재력을 보여주고 있습니다. 그러나 기존 TiVR 패러다임은 주로 강화 학습을 통한 다양한 시각 도구 통합에 집중하고, 신뢰할 수 없거나 오류가 있는 도구 출력을 처리하기 위한 효과적인 응답 메커니즘 설계를 소홀히 해왔습니다. 이러한 한계는 참조 및 그라운딩 작업에서 특히 두드러지는데, 부정확한 검출 도구 예측이 TiVR 모델을 환각 추론을 생성하도록 오도하는 경우가 많기 때문입니다. 이 문제를 해결하기 위해 우리는 도구 정제 참조 그라운딩 추론을 목표로 하는 최초의 프레임워크인 VG-Refiner를 제안합니다. 기술적으로는 모델이 도구 피드백을 명시적으로 분석하고 응답할 수 있는 2단계 생각-재고 메커니즘과, 열악한 도구 결과에 효과적으로 대처하는 수정을 장려하는 정제 보상을 도입했습니다. 또한 두 가지 새로운 평가 척도를 제안하고 공정한 평가 프로토콜을 수립하여 현재 모델의 정제 능력을 체계적으로 측정합니다. 우리는 소량의 작업 특화 데이터를 활용하여 VG-Refiner의 정제 능력을 강화했으며, 사전 학습 모델의 일반적인 능력을 유지하면서 참조 및 추론 그라운딩 벤치마크에서 정확도와 수정 능력이 크게 향상된 결과를 달성했습니다.
English
Tool-integrated visual reasoning (TiVR) has demonstrated great potential in enhancing multimodal problem-solving. However, existing TiVR paradigms mainly focus on integrating various visual tools through reinforcement learning, while neglecting to design effective response mechanisms for handling unreliable or erroneous tool outputs. This limitation is particularly pronounced in referring and grounding tasks, where inaccurate detection tool predictions often mislead TiVR models into generating hallucinated reasoning. To address this issue, we propose the VG-Refiner, the first framework aiming at the tool-refined referring grounded reasoning. Technically, we introduce a two-stage think-rethink mechanism that enables the model to explicitly analyze and respond to tool feedback, along with a refinement reward that encourages effective correction in response to poor tool results. In addition, we propose two new metrics and establish fair evaluation protocols to systematically measure the refinement ability of current models. We adopt a small amount of task-specific data to enhance the refinement capability of VG-Refiner, achieving a significant improvement in accuracy and correction ability on referring and reasoning grounding benchmarks while preserving the general capabilities of the pretrained model.