ChatPaper.aiChatPaper

DINO-R1 : Stimuler les capacités de raisonnement dans les modèles de base en vision

DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models

May 29, 2025
Auteurs: Chenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren
cs.AI

Résumé

L'intérêt récent et explosif pour les capacités de raisonnement des grands modèles de langage, tels que DeepSeek-R1, a démontré un succès remarquable grâce à des cadres de réglage fin basés sur l'apprentissage par renforcement, illustrés par des méthodes comme l'Optimisation Relative de Politique par Groupe (Group Relative Policy Optimization, GRPO). Cependant, ces capacités de raisonnement restent sous-explorées et notablement absentes dans les modèles de fondation visuelle, y compris les modèles de représentation comme la série DINO. Dans ce travail, nous proposons DINO-R1, la première tentative visant à encourager les capacités de raisonnement visuel en contexte des modèles de fondation visuelle en utilisant l'apprentissage par renforcement. Plus précisément, DINO-R1 introduit l'Optimisation Relative de Requête par Groupe (Group Relative Query Optimization, GRQO), une nouvelle stratégie d'entraînement de style renforcement explicitement conçue pour les modèles de représentation basés sur des requêtes, qui calcule des récompenses au niveau des requêtes en fonction de la qualité d'alignement normalisée par groupe. Nous appliquons également une régularisation KL pour stabiliser la distribution de l'objectivité afin de réduire l'instabilité de l'entraînement. Cette optimisation conjointe permet une supervision dense et expressive à travers les requêtes tout en atténuant le surajustement et la dérive distributionnelle. En nous appuyant sur Grounding-DINO, nous entraînons une série de modèles de la famille DINO-R1 qui intègrent un encodeur d'invite visuelle et un mécanisme de sélection de requêtes guidé par la vision. Des expériences approfondies sur COCO, LVIS et ODinW démontrent que DINO-R1 surpasse significativement les bases de réglage fin supervisé, atteignant une forte généralisation dans les scénarios d'invite visuelle à vocabulaire ouvert et à ensemble fermé.
English
The recent explosive interest in the reasoning capabilities of large language models, such as DeepSeek-R1, has demonstrated remarkable success through reinforcement learning-based fine-tuning frameworks, exemplified by methods like Group Relative Policy Optimization (GRPO). However, such reasoning abilities remain underexplored and notably absent in vision foundation models, including representation models like the DINO series. In this work, we propose DINO-R1, the first such attempt to incentivize visual in-context reasoning capabilities of vision foundation models using reinforcement learning. Specifically, DINO-R1 introduces Group Relative Query Optimization (GRQO), a novel reinforcement-style training strategy explicitly designed for query-based representation models, which computes query-level rewards based on group-normalized alignment quality. We also apply KL-regularization to stabilize the objectness distribution to reduce the training instability. This joint optimization enables dense and expressive supervision across queries while mitigating overfitting and distributional drift. Building upon Grounding-DINO, we train a series of DINO-R1 family models that integrate a visual prompt encoder and a visual-guided query selection mechanism. Extensive experiments on COCO, LVIS, and ODinW demonstrate that DINO-R1 significantly outperforms supervised fine-tuning baselines, achieving strong generalization in both open-vocabulary and closed-set visual prompting scenarios.
PDF233June 2, 2025