DINO-R1: Incentivizando a Capacidade de Raciocínio em Modelos de Base Visuais
DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models
May 29, 2025
Autores: Chenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren
cs.AI
Resumo
O recente e explosivo interesse nas capacidades de raciocínio de modelos de linguagem de grande escala, como o DeepSeek-R1, demonstrou sucesso notável por meio de frameworks de ajuste fino baseados em aprendizado por reforço, exemplificados por métodos como o Group Relative Policy Optimization (GRPO). No entanto, tais habilidades de raciocínio permanecem pouco exploradas e notavelmente ausentes em modelos de base visual, incluindo modelos de representação como a série DINO. Neste trabalho, propomos o DINO-R1, a primeira tentativa de incentivar capacidades de raciocínio visual em contexto de modelos de base visual usando aprendizado por reforço. Especificamente, o DINO-R1 introduz o Group Relative Query Optimization (GRQO), uma nova estratégia de treinamento no estilo de reforço explicitamente projetada para modelos de representação baseados em consultas, que calcula recompensas no nível da consulta com base na qualidade de alinhamento normalizada por grupo. Também aplicamos regularização KL para estabilizar a distribuição de objetividade, reduzindo a instabilidade do treinamento. Essa otimização conjunta permite supervisão densa e expressiva entre as consultas, ao mesmo tempo que mitiga o sobreajuste e o desvio distribucional. Com base no Grounding-DINO, treinamos uma série de modelos da família DINO-R1 que integram um codificador de prompt visual e um mecanismo de seleção de consultas guiado visualmente. Experimentos extensivos no COCO, LVIS e ODinW demonstram que o DINO-R1 supera significativamente as linhas de base de ajuste fino supervisionado, alcançando forte generalização tanto em cenários de prompt visual de vocabulário aberto quanto de conjunto fechado.
English
The recent explosive interest in the reasoning capabilities of large language
models, such as DeepSeek-R1, has demonstrated remarkable success through
reinforcement learning-based fine-tuning frameworks, exemplified by methods
like Group Relative Policy Optimization (GRPO). However, such reasoning
abilities remain underexplored and notably absent in vision foundation models,
including representation models like the DINO series. In this work, we propose
DINO-R1, the first such attempt to incentivize visual in-context
reasoning capabilities of vision foundation models using reinforcement
learning. Specifically, DINO-R1 introduces Group Relative Query
Optimization (GRQO), a novel reinforcement-style training strategy explicitly
designed for query-based representation models, which computes query-level
rewards based on group-normalized alignment quality. We also apply
KL-regularization to stabilize the objectness distribution to reduce the
training instability. This joint optimization enables dense and expressive
supervision across queries while mitigating overfitting and distributional
drift. Building upon Grounding-DINO, we train a series of DINO-R1 family models
that integrate a visual prompt encoder and a visual-guided query selection
mechanism. Extensive experiments on COCO, LVIS, and ODinW demonstrate that
DINO-R1 significantly outperforms supervised fine-tuning baselines, achieving
strong generalization in both open-vocabulary and closed-set visual prompting
scenarios.