DINO-R1 : Stimuler les capacités de raisonnement dans les modèles de base en vision
DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models
May 29, 2025
Auteurs: Chenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren
cs.AI
Résumé
L'intérêt récent et explosif pour les capacités de raisonnement des grands modèles de langage, tels que DeepSeek-R1, a démontré un succès remarquable grâce à des cadres de réglage fin basés sur l'apprentissage par renforcement, illustrés par des méthodes comme l'Optimisation Relative de Politique par Groupe (Group Relative Policy Optimization, GRPO). Cependant, ces capacités de raisonnement restent sous-explorées et notablement absentes dans les modèles de fondation visuelle, y compris les modèles de représentation comme la série DINO. Dans ce travail, nous proposons DINO-R1, la première tentative visant à encourager les capacités de raisonnement visuel en contexte des modèles de fondation visuelle en utilisant l'apprentissage par renforcement. Plus précisément, DINO-R1 introduit l'Optimisation Relative de Requête par Groupe (Group Relative Query Optimization, GRQO), une nouvelle stratégie d'entraînement de style renforcement explicitement conçue pour les modèles de représentation basés sur des requêtes, qui calcule des récompenses au niveau des requêtes en fonction de la qualité d'alignement normalisée par groupe. Nous appliquons également une régularisation KL pour stabiliser la distribution de l'objectivité afin de réduire l'instabilité de l'entraînement. Cette optimisation conjointe permet une supervision dense et expressive à travers les requêtes tout en atténuant le surajustement et la dérive distributionnelle. En nous appuyant sur Grounding-DINO, nous entraînons une série de modèles de la famille DINO-R1 qui intègrent un encodeur d'invite visuelle et un mécanisme de sélection de requêtes guidé par la vision. Des expériences approfondies sur COCO, LVIS et ODinW démontrent que DINO-R1 surpasse significativement les bases de réglage fin supervisé, atteignant une forte généralisation dans les scénarios d'invite visuelle à vocabulaire ouvert et à ensemble fermé.
English
The recent explosive interest in the reasoning capabilities of large language
models, such as DeepSeek-R1, has demonstrated remarkable success through
reinforcement learning-based fine-tuning frameworks, exemplified by methods
like Group Relative Policy Optimization (GRPO). However, such reasoning
abilities remain underexplored and notably absent in vision foundation models,
including representation models like the DINO series. In this work, we propose
DINO-R1, the first such attempt to incentivize visual in-context
reasoning capabilities of vision foundation models using reinforcement
learning. Specifically, DINO-R1 introduces Group Relative Query
Optimization (GRQO), a novel reinforcement-style training strategy explicitly
designed for query-based representation models, which computes query-level
rewards based on group-normalized alignment quality. We also apply
KL-regularization to stabilize the objectness distribution to reduce the
training instability. This joint optimization enables dense and expressive
supervision across queries while mitigating overfitting and distributional
drift. Building upon Grounding-DINO, we train a series of DINO-R1 family models
that integrate a visual prompt encoder and a visual-guided query selection
mechanism. Extensive experiments on COCO, LVIS, and ODinW demonstrate that
DINO-R1 significantly outperforms supervised fine-tuning baselines, achieving
strong generalization in both open-vocabulary and closed-set visual prompting
scenarios.