UniVG-R1: 강화 학습 기반 추론 주도 범용 시각적 그라운딩
UniVG-R1: Reasoning Guided Universal Visual Grounding with Reinforcement Learning
May 20, 2025
저자: Sule Bai, Mingxing Li, Yong Liu, Jing Tang, Haoji Zhang, Lei Sun, Xiangxiang Chu, Yansong Tang
cs.AI
초록
기존의 시각적 그라운딩(visual grounding) 방법은 주로 단일 이미지 시나리오와 간단한 텍스트 참조에 초점을 맞추고 있습니다. 그러나 이러한 방법을 암묵적이고 복잡한 지시를 포함하며 다중 이미지와 결합된 실제 시나리오로 확장하는 것은 상당한 도전 과제로 남아 있습니다. 이는 주로 다양한 다중 모달(multi-modal) 컨텍스트에서의 고급 추론 능력 부족 때문입니다. 본 연구에서는 보다 실용적인 범용 그라운딩(universal grounding) 작업을 해결하고자 하며, 강화 학습(reinforcement learning, RL)과 콜드 스타트(cold-start) 데이터를 결합하여 추론 능력을 강화한 범용 시각적 그라운딩을 위한 다중 모달 대형 언어 모델(MLLM)인 UniVG-R1을 제안합니다. 구체적으로, 먼저 상세한 추론 체인(Chain-of-Thought, CoT)으로 주석이 달린 고품질 그라운딩 데이터셋을 구축하여 지도 미세 조정(supervised fine-tuning)을 통해 모델이 올바른 추론 경로를 따르도록 유도합니다. 이후, 규칙 기반 강화 학습을 수행하여 모델이 올바른 추론 체인을 식별하도록 장려함으로써 추론 능력을 강화합니다. 또한, RL 훈련이 진행됨에 따라 쉬운 샘플의 우세로 인해 발생하는 난이도 편향(difficulty bias)을 식별하고, 이를 해결하기 위해 난이도 인식 가중치 조정 전략을 제안하여 성능을 더욱 강화합니다. 실험 결과는 UniVG-R1의 효과를 입증하며, MIG-Bench에서 이전 방법 대비 9.1%의 성능 향상을 달성했습니다. 또한, 우리의 모델은 강력한 일반화 능력을 보여주며, 네 가지 이미지 및 비디오 추론 그라운딩 벤치마크에서 평균 23.4%의 제로샷(zero-shot) 성능 향상을 달성했습니다. 프로젝트 페이지는 https://amap-ml.github.io/UniVG-R1-page/에서 확인할 수 있습니다.
English
Traditional visual grounding methods primarily focus on single-image
scenarios with simple textual references. However, extending these methods to
real-world scenarios that involve implicit and complex instructions,
particularly in conjunction with multiple images, poses significant challenges,
which is mainly due to the lack of advanced reasoning ability across diverse
multi-modal contexts. In this work, we aim to address the more practical
universal grounding task, and propose UniVG-R1, a reasoning guided multimodal
large language model (MLLM) for universal visual grounding, which enhances
reasoning capabilities through reinforcement learning (RL) combined with
cold-start data. Specifically, we first construct a high-quality
Chain-of-Thought (CoT) grounding dataset, annotated with detailed reasoning
chains, to guide the model towards correct reasoning paths via supervised
fine-tuning. Subsequently, we perform rule-based reinforcement learning to
encourage the model to identify correct reasoning chains, thereby incentivizing
its reasoning capabilities. In addition, we identify a difficulty bias arising
from the prevalence of easy samples as RL training progresses, and we propose a
difficulty-aware weight adjustment strategy to further strengthen the
performance. Experimental results demonstrate the effectiveness of UniVG-R1,
which achieves state-of-the-art performance on MIG-Bench with a 9.1%
improvement over the previous method. Furthermore, our model exhibits strong
generalizability, achieving an average improvement of 23.4% in zero-shot
performance across four image and video reasoning grounding benchmarks. The
project page can be accessed at https://amap-ml.github.io/UniVG-R1-page/.Summary
AI-Generated Summary