DINO-R1: 시각 기반 모델의 추론 능력 강화를 위한 인센티브 제공
DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models
May 29, 2025
저자: Chenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren
cs.AI
초록
최근 DeepSeek-R1과 같은 대규모 언어 모델의 추론 능력에 대한 폭발적인 관심은 Group Relative Policy Optimization(GRPO)과 같은 방법을 통해 강화 학습 기반 미세 조정 프레임워크의 놀라운 성공을 입증했습니다. 그러나 이러한 추론 능력은 여전히 충분히 탐구되지 않았으며, DINO 시리즈와 같은 표현 모델을 포함한 비전 기반 모델에서는 특히 부재한 상태입니다. 본 연구에서는 강화 학습을 활용하여 비전 기반 모델의 시각적 문맥 내 추론 능력을 유도하는 첫 번째 시도인 DINO-R1을 제안합니다. 구체적으로, DINO-R1은 그룹 정규화된 정렬 품질을 기반으로 쿼리 수준의 보상을 계산하는, 쿼리 기반 표현 모델을 위해 명시적으로 설계된 새로운 강화 학습 전략인 Group Relative Query Optimization(GRQO)을 도입합니다. 또한, 학습 불안정성을 줄이기 위해 객체성 분포를 안정화하기 위해 KL 정규화를 적용합니다. 이 공동 최적화는 과적합과 분포적 편향을 완화하면서 쿼리 전반에 걸쳐 밀도 높고 표현력 있는 지도를 가능하게 합니다. Grounding-DINO를 기반으로, 시각적 프롬프트 인코더와 시각적 가이드 쿼리 선택 메커니즘을 통합한 DINO-R1 계열 모델을 학습시켰습니다. COCO, LVIS, ODinW에 대한 광범위한 실험을 통해 DINO-R1이 지도 미세 조정 기준선을 크게 능가하며, 개방형 어휘 및 폐쇄형 시각적 프롬프트 시나리오 모두에서 강력한 일반화 성능을 달성함을 입증했습니다.
English
The recent explosive interest in the reasoning capabilities of large language
models, such as DeepSeek-R1, has demonstrated remarkable success through
reinforcement learning-based fine-tuning frameworks, exemplified by methods
like Group Relative Policy Optimization (GRPO). However, such reasoning
abilities remain underexplored and notably absent in vision foundation models,
including representation models like the DINO series. In this work, we propose
DINO-R1, the first such attempt to incentivize visual in-context
reasoning capabilities of vision foundation models using reinforcement
learning. Specifically, DINO-R1 introduces Group Relative Query
Optimization (GRQO), a novel reinforcement-style training strategy explicitly
designed for query-based representation models, which computes query-level
rewards based on group-normalized alignment quality. We also apply
KL-regularization to stabilize the objectness distribution to reduce the
training instability. This joint optimization enables dense and expressive
supervision across queries while mitigating overfitting and distributional
drift. Building upon Grounding-DINO, we train a series of DINO-R1 family models
that integrate a visual prompt encoder and a visual-guided query selection
mechanism. Extensive experiments on COCO, LVIS, and ODinW demonstrate that
DINO-R1 significantly outperforms supervised fine-tuning baselines, achieving
strong generalization in both open-vocabulary and closed-set visual prompting
scenarios.