ChatPaper.aiChatPaper

DINO-R1: Incentivizzare le Capacità di Ragionamento nei Modelli di Base per la Visione

DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models

May 29, 2025
Autori: Chenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren
cs.AI

Abstract

Il recente e crescente interesse per le capacità di ragionamento dei grandi modelli linguistici, come DeepSeek-R1, ha dimostrato un notevole successo attraverso framework di fine-tuning basati sull'apprendimento per rinforzo, esemplificati da metodi come l'ottimizzazione relativa di gruppo delle politiche (Group Relative Policy Optimization, GRPO). Tuttavia, tali capacità di ragionamento rimangono poco esplorate e sono particolarmente assenti nei modelli di fondazione visiva, inclusi i modelli di rappresentazione come la serie DINO. In questo lavoro, proponiamo DINO-R1, il primo tentativo di incentivare le capacità di ragionamento contestuale visivo nei modelli di fondazione visiva utilizzando l'apprendimento per rinforzo. Nello specifico, DINO-R1 introduce l'ottimizzazione relativa di gruppo delle query (Group Relative Query Optimization, GRQO), una nuova strategia di addestramento in stile rinforzo progettata esplicitamente per modelli di rappresentazione basati su query, che calcola ricompense a livello di query basate sulla qualità di allineamento normalizzata per gruppo. Applichiamo inoltre la regolarizzazione KL per stabilizzare la distribuzione dell'oggettività, riducendo l'instabilità durante l'addestramento. Questa ottimizzazione congiunta consente una supervisione densa ed espressiva attraverso le query, mitigando al contempo l'overfitting e la deriva distributiva. Basandoci su Grounding-DINO, addestriamo una serie di modelli della famiglia DINO-R1 che integrano un codificatore di prompt visivo e un meccanismo di selezione delle query guidato visivamente. Esperimenti estesi su COCO, LVIS e ODinW dimostrano che DINO-R1 supera significativamente i baseline di fine-tuning supervisionato, ottenendo una forte generalizzazione sia negli scenari di prompting visivo a vocabolario aperto che in quelli a insieme chiuso.
English
The recent explosive interest in the reasoning capabilities of large language models, such as DeepSeek-R1, has demonstrated remarkable success through reinforcement learning-based fine-tuning frameworks, exemplified by methods like Group Relative Policy Optimization (GRPO). However, such reasoning abilities remain underexplored and notably absent in vision foundation models, including representation models like the DINO series. In this work, we propose DINO-R1, the first such attempt to incentivize visual in-context reasoning capabilities of vision foundation models using reinforcement learning. Specifically, DINO-R1 introduces Group Relative Query Optimization (GRQO), a novel reinforcement-style training strategy explicitly designed for query-based representation models, which computes query-level rewards based on group-normalized alignment quality. We also apply KL-regularization to stabilize the objectness distribution to reduce the training instability. This joint optimization enables dense and expressive supervision across queries while mitigating overfitting and distributional drift. Building upon Grounding-DINO, we train a series of DINO-R1 family models that integrate a visual prompt encoder and a visual-guided query selection mechanism. Extensive experiments on COCO, LVIS, and ODinW demonstrate that DINO-R1 significantly outperforms supervised fine-tuning baselines, achieving strong generalization in both open-vocabulary and closed-set visual prompting scenarios.
PDF274June 2, 2025