ChatPaper.aiChatPaper

DINO-R1: Incentivizando a Capacidade de Raciocínio em Modelos de Base Visuais

DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models

May 29, 2025
Autores: Chenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren
cs.AI

Resumo

O recente e explosivo interesse nas capacidades de raciocínio de modelos de linguagem de grande escala, como o DeepSeek-R1, demonstrou sucesso notável por meio de frameworks de ajuste fino baseados em aprendizado por reforço, exemplificados por métodos como o Group Relative Policy Optimization (GRPO). No entanto, tais habilidades de raciocínio permanecem pouco exploradas e notavelmente ausentes em modelos de base visual, incluindo modelos de representação como a série DINO. Neste trabalho, propomos o DINO-R1, a primeira tentativa de incentivar capacidades de raciocínio visual em contexto de modelos de base visual usando aprendizado por reforço. Especificamente, o DINO-R1 introduz o Group Relative Query Optimization (GRQO), uma nova estratégia de treinamento no estilo de reforço explicitamente projetada para modelos de representação baseados em consultas, que calcula recompensas no nível da consulta com base na qualidade de alinhamento normalizada por grupo. Também aplicamos regularização KL para estabilizar a distribuição de objetividade, reduzindo a instabilidade do treinamento. Essa otimização conjunta permite supervisão densa e expressiva entre as consultas, ao mesmo tempo que mitiga o sobreajuste e o desvio distribucional. Com base no Grounding-DINO, treinamos uma série de modelos da família DINO-R1 que integram um codificador de prompt visual e um mecanismo de seleção de consultas guiado visualmente. Experimentos extensivos no COCO, LVIS e ODinW demonstram que o DINO-R1 supera significativamente as linhas de base de ajuste fino supervisionado, alcançando forte generalização tanto em cenários de prompt visual de vocabulário aberto quanto de conjunto fechado.
English
The recent explosive interest in the reasoning capabilities of large language models, such as DeepSeek-R1, has demonstrated remarkable success through reinforcement learning-based fine-tuning frameworks, exemplified by methods like Group Relative Policy Optimization (GRPO). However, such reasoning abilities remain underexplored and notably absent in vision foundation models, including representation models like the DINO series. In this work, we propose DINO-R1, the first such attempt to incentivize visual in-context reasoning capabilities of vision foundation models using reinforcement learning. Specifically, DINO-R1 introduces Group Relative Query Optimization (GRQO), a novel reinforcement-style training strategy explicitly designed for query-based representation models, which computes query-level rewards based on group-normalized alignment quality. We also apply KL-regularization to stabilize the objectness distribution to reduce the training instability. This joint optimization enables dense and expressive supervision across queries while mitigating overfitting and distributional drift. Building upon Grounding-DINO, we train a series of DINO-R1 family models that integrate a visual prompt encoder and a visual-guided query selection mechanism. Extensive experiments on COCO, LVIS, and ODinW demonstrate that DINO-R1 significantly outperforms supervised fine-tuning baselines, achieving strong generalization in both open-vocabulary and closed-set visual prompting scenarios.
PDF274June 2, 2025