DINO-R1: Förderung von Fähigkeiten zum logischen Denken in visuellen Basismodellen
DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models
May 29, 2025
papers.authors: Chenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren
cs.AI
papers.abstract
Das jüngste explosionsartige Interesse an den Denkfähigkeiten großer Sprachmodelle, wie DeepSeek-R1, hat bemerkenswerte Erfolge durch feinabgestimmte Frameworks auf Basis von Verstärkungslernen gezeigt, wie beispielsweise die Methode Group Relative Policy Optimization (GRPO). Solche Denkfähigkeiten bleiben jedoch in visuellen Basismodellen, einschließlich Repräsentationsmodellen wie der DINO-Serie, weitgehend unerforscht und auffällig abwesend. In dieser Arbeit schlagen wir DINO-R1 vor, den ersten Versuch dieser Art, die visuellen In-Context-Denkfähigkeiten von visuellen Basismodellen durch Verstärkungslernen zu fördern. Konkret führt DINO-R1 Group Relative Query Optimization (GRQO) ein, eine neuartige Trainingsstrategie im Stil des Verstärkungslernens, die speziell für abfragebasierte Repräsentationsmodelle entwickelt wurde und abfragebezogene Belohnungen auf der Grundlage der gruppennormalisierten Ausrichtungsqualität berechnet. Wir wenden außerdem KL-Regularisierung an, um die Objektverteilung zu stabilisieren und die Trainingsinstabilität zu verringern. Diese gemeinsame Optimierung ermöglicht eine dichte und ausdrucksstarke Überwachung über Abfragen hinweg, während Überanpassung und Verteilungsdrift gemildert werden. Aufbauend auf Grounding-DINO trainieren wir eine Reihe von DINO-R1-Familienmodellen, die einen visuellen Prompt-Encoder und einen visuell gesteuerten Abfrageauswahlmechanismus integrieren. Umfangreiche Experimente auf COCO, LVIS und ODinW zeigen, dass DINO-R1 die überwachten Feinabstimmungs-Baselines deutlich übertrifft und eine starke Generalisierung sowohl in offenen Vokabular- als auch in geschlossenen visuellen Prompt-Szenarien erreicht.
English
The recent explosive interest in the reasoning capabilities of large language
models, such as DeepSeek-R1, has demonstrated remarkable success through
reinforcement learning-based fine-tuning frameworks, exemplified by methods
like Group Relative Policy Optimization (GRPO). However, such reasoning
abilities remain underexplored and notably absent in vision foundation models,
including representation models like the DINO series. In this work, we propose
DINO-R1, the first such attempt to incentivize visual in-context
reasoning capabilities of vision foundation models using reinforcement
learning. Specifically, DINO-R1 introduces Group Relative Query
Optimization (GRQO), a novel reinforcement-style training strategy explicitly
designed for query-based representation models, which computes query-level
rewards based on group-normalized alignment quality. We also apply
KL-regularization to stabilize the objectness distribution to reduce the
training instability. This joint optimization enables dense and expressive
supervision across queries while mitigating overfitting and distributional
drift. Building upon Grounding-DINO, we train a series of DINO-R1 family models
that integrate a visual prompt encoder and a visual-guided query selection
mechanism. Extensive experiments on COCO, LVIS, and ODinW demonstrate that
DINO-R1 significantly outperforms supervised fine-tuning baselines, achieving
strong generalization in both open-vocabulary and closed-set visual prompting
scenarios.