ChatPaper.aiChatPaper

DINO-R1:視覚基盤モデルにおける推論能力の促進

DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models

May 29, 2025
著者: Chenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren
cs.AI

要旨

近年、DeepSeek-R1などの大規模言語モデルの推論能力に対する爆発的な関心が高まっており、強化学習ベースのファインチューニングフレームワーク(例えば、Group Relative Policy Optimization (GRPO) のような手法)を通じて顕著な成功が示されている。しかし、そのような推論能力は、DINOシリーズなどの表現モデルを含む視覚基盤モデルにおいては未開拓であり、特に欠如している。本研究では、強化学習を用いて視覚基盤モデルの視覚的文脈内推論能力を促進する初の試みとして、DINO-R1を提案する。具体的には、DINO-R1は、クエリベースの表現モデルに特化して設計された新しい強化学習型トレーニング戦略であるGroup Relative Query Optimization (GRQO)を導入し、グループ正規化されたアライメント品質に基づいてクエリレベルの報酬を計算する。また、KL正則化を適用してオブジェクト性分布を安定化し、トレーニングの不安定性を低減する。この共同最適化により、クエリ間で密接かつ表現力のある監視を可能にしつつ、過学習と分布のドリフトを緩和する。Grounding-DINOを基盤として、視覚プロンプトエンコーダと視覚誘導クエリ選択メカニズムを統合した一連のDINO-R1ファミリーモデルをトレーニングする。COCO、LVIS、ODinWにおける広範な実験により、DINO-R1が教師ありファインチューニングのベースラインを大幅に上回り、オープン語彙およびクローズドセットの視覚プロンプトシナリオにおいて強力な汎化性能を達成することが実証された。
English
The recent explosive interest in the reasoning capabilities of large language models, such as DeepSeek-R1, has demonstrated remarkable success through reinforcement learning-based fine-tuning frameworks, exemplified by methods like Group Relative Policy Optimization (GRPO). However, such reasoning abilities remain underexplored and notably absent in vision foundation models, including representation models like the DINO series. In this work, we propose DINO-R1, the first such attempt to incentivize visual in-context reasoning capabilities of vision foundation models using reinforcement learning. Specifically, DINO-R1 introduces Group Relative Query Optimization (GRQO), a novel reinforcement-style training strategy explicitly designed for query-based representation models, which computes query-level rewards based on group-normalized alignment quality. We also apply KL-regularization to stabilize the objectness distribution to reduce the training instability. This joint optimization enables dense and expressive supervision across queries while mitigating overfitting and distributional drift. Building upon Grounding-DINO, we train a series of DINO-R1 family models that integrate a visual prompt encoder and a visual-guided query selection mechanism. Extensive experiments on COCO, LVIS, and ODinW demonstrate that DINO-R1 significantly outperforms supervised fine-tuning baselines, achieving strong generalization in both open-vocabulary and closed-set visual prompting scenarios.
PDF233June 2, 2025