ChatPaper.aiChatPaper

DINO-R1: Het stimuleren van redeneervermogen in visuele basismodellen

DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models

May 29, 2025
Auteurs: Chenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren
cs.AI

Samenvatting

De recente explosieve belangstelling voor de redeneervaardigheden van grote taalmodelen, zoals DeepSeek-R1, heeft opmerkelijke successen laten zien door middel van fine-tuning frameworks gebaseerd op reinforcement learning, geïllustreerd door methoden zoals Group Relative Policy Optimization (GRPO). Echter, dergelijke redeneervaardigheden blijven onderbelicht en zijn opvallend afwezig in visuele foundationmodellen, waaronder representatiemodellen zoals de DINO-serie. In dit werk stellen we DINO-R1 voor, de eerste poging om visuele in-context redeneervaardigheden van visuele foundationmodellen te stimuleren met behulp van reinforcement learning. Specifiek introduceert DINO-R1 Group Relative Query Optimization (GRQO), een nieuwe reinforcement-style trainingsstrategie die expliciet is ontworpen voor query-gebaseerde representatiemodellen, waarbij query-level beloningen worden berekend op basis van groep-genormaliseerde uitlijningskwaliteit. We passen ook KL-regularisatie toe om de objectnessverdeling te stabiliseren en zo de trainingsinstabiliteit te verminderen. Deze gezamenlijke optimalisatie maakt dichte en expressieve supervisie over queries mogelijk, terwijl overfitting en distributiedrift worden gemitigeerd. Gebaseerd op Grounding-DINO trainen we een reeks DINO-R1 familiemodellen die een visuele promptencoder en een visueel-gestuurd queryselectiemechanisme integreren. Uitgebreide experimenten op COCO, LVIS en ODinW tonen aan dat DINO-R1 aanzienlijk beter presteert dan supervised fine-tuning baselines, met een sterke generalisatie in zowel open-vocabulary als closed-set visuele promptscenario's.
English
The recent explosive interest in the reasoning capabilities of large language models, such as DeepSeek-R1, has demonstrated remarkable success through reinforcement learning-based fine-tuning frameworks, exemplified by methods like Group Relative Policy Optimization (GRPO). However, such reasoning abilities remain underexplored and notably absent in vision foundation models, including representation models like the DINO series. In this work, we propose DINO-R1, the first such attempt to incentivize visual in-context reasoning capabilities of vision foundation models using reinforcement learning. Specifically, DINO-R1 introduces Group Relative Query Optimization (GRQO), a novel reinforcement-style training strategy explicitly designed for query-based representation models, which computes query-level rewards based on group-normalized alignment quality. We also apply KL-regularization to stabilize the objectness distribution to reduce the training instability. This joint optimization enables dense and expressive supervision across queries while mitigating overfitting and distributional drift. Building upon Grounding-DINO, we train a series of DINO-R1 family models that integrate a visual prompt encoder and a visual-guided query selection mechanism. Extensive experiments on COCO, LVIS, and ODinW demonstrate that DINO-R1 significantly outperforms supervised fine-tuning baselines, achieving strong generalization in both open-vocabulary and closed-set visual prompting scenarios.
PDF274June 2, 2025