DINO-R1: Het stimuleren van redeneervermogen in visuele basismodellen
DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models
May 29, 2025
Auteurs: Chenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren
cs.AI
Samenvatting
De recente explosieve belangstelling voor de redeneervaardigheden van grote taalmodelen, zoals DeepSeek-R1, heeft opmerkelijke successen laten zien door middel van fine-tuning frameworks gebaseerd op reinforcement learning, geïllustreerd door methoden zoals Group Relative Policy Optimization (GRPO). Echter, dergelijke redeneervaardigheden blijven onderbelicht en zijn opvallend afwezig in visuele foundationmodellen, waaronder representatiemodellen zoals de DINO-serie. In dit werk stellen we DINO-R1 voor, de eerste poging om visuele in-context redeneervaardigheden van visuele foundationmodellen te stimuleren met behulp van reinforcement learning. Specifiek introduceert DINO-R1 Group Relative Query Optimization (GRQO), een nieuwe reinforcement-style trainingsstrategie die expliciet is ontworpen voor query-gebaseerde representatiemodellen, waarbij query-level beloningen worden berekend op basis van groep-genormaliseerde uitlijningskwaliteit. We passen ook KL-regularisatie toe om de objectnessverdeling te stabiliseren en zo de trainingsinstabiliteit te verminderen. Deze gezamenlijke optimalisatie maakt dichte en expressieve supervisie over queries mogelijk, terwijl overfitting en distributiedrift worden gemitigeerd. Gebaseerd op Grounding-DINO trainen we een reeks DINO-R1 familiemodellen die een visuele promptencoder en een visueel-gestuurd queryselectiemechanisme integreren. Uitgebreide experimenten op COCO, LVIS en ODinW tonen aan dat DINO-R1 aanzienlijk beter presteert dan supervised fine-tuning baselines, met een sterke generalisatie in zowel open-vocabulary als closed-set visuele promptscenario's.
English
The recent explosive interest in the reasoning capabilities of large language
models, such as DeepSeek-R1, has demonstrated remarkable success through
reinforcement learning-based fine-tuning frameworks, exemplified by methods
like Group Relative Policy Optimization (GRPO). However, such reasoning
abilities remain underexplored and notably absent in vision foundation models,
including representation models like the DINO series. In this work, we propose
DINO-R1, the first such attempt to incentivize visual in-context
reasoning capabilities of vision foundation models using reinforcement
learning. Specifically, DINO-R1 introduces Group Relative Query
Optimization (GRQO), a novel reinforcement-style training strategy explicitly
designed for query-based representation models, which computes query-level
rewards based on group-normalized alignment quality. We also apply
KL-regularization to stabilize the objectness distribution to reduce the
training instability. This joint optimization enables dense and expressive
supervision across queries while mitigating overfitting and distributional
drift. Building upon Grounding-DINO, we train a series of DINO-R1 family models
that integrate a visual prompt encoder and a visual-guided query selection
mechanism. Extensive experiments on COCO, LVIS, and ODinW demonstrate that
DINO-R1 significantly outperforms supervised fine-tuning baselines, achieving
strong generalization in both open-vocabulary and closed-set visual prompting
scenarios.