ChatPaper.aiChatPaper

DINO-R1: Incentivizando la Capacidad de Razonamiento en Modelos Fundamentales de Visión

DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models

May 29, 2025
Autores: Chenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren
cs.AI

Resumen

El reciente y explosivo interés en las capacidades de razonamiento de los modelos de lenguaje grandes, como DeepSeek-R1, ha demostrado un éxito notable a través de marcos de ajuste fino basados en aprendizaje por refuerzo, ejemplificados por métodos como Group Relative Policy Optimization (GRPO). Sin embargo, tales habilidades de razonamiento siguen siendo poco exploradas y notablemente ausentes en los modelos fundamentales de visión, incluyendo modelos de representación como la serie DINO. En este trabajo, proponemos DINO-R1, el primer intento de incentivar las capacidades de razonamiento visual en contexto de los modelos fundamentales de visión utilizando aprendizaje por refuerzo. Específicamente, DINO-R1 introduce Group Relative Query Optimization (GRQO), una novedosa estrategia de entrenamiento de estilo refuerzo diseñada explícitamente para modelos de representación basados en consultas, que calcula recompensas a nivel de consulta basadas en la calidad de alineación normalizada por grupo. También aplicamos regularización KL para estabilizar la distribución de objetividad y reducir la inestabilidad del entrenamiento. Esta optimización conjunta permite una supervisión densa y expresiva a través de las consultas mientras mitiga el sobreajuste y la deriva distribucional. Basándonos en Grounding-DINO, entrenamos una serie de modelos de la familia DINO-R1 que integran un codificador de indicaciones visuales y un mecanismo de selección de consultas guiado visualmente. Experimentos extensivos en COCO, LVIS y ODinW demuestran que DINO-R1 supera significativamente los baselines de ajuste fino supervisado, logrando una fuerte generalización tanto en escenarios de indicación visual de vocabulario abierto como de conjunto cerrado.
English
The recent explosive interest in the reasoning capabilities of large language models, such as DeepSeek-R1, has demonstrated remarkable success through reinforcement learning-based fine-tuning frameworks, exemplified by methods like Group Relative Policy Optimization (GRPO). However, such reasoning abilities remain underexplored and notably absent in vision foundation models, including representation models like the DINO series. In this work, we propose DINO-R1, the first such attempt to incentivize visual in-context reasoning capabilities of vision foundation models using reinforcement learning. Specifically, DINO-R1 introduces Group Relative Query Optimization (GRQO), a novel reinforcement-style training strategy explicitly designed for query-based representation models, which computes query-level rewards based on group-normalized alignment quality. We also apply KL-regularization to stabilize the objectness distribution to reduce the training instability. This joint optimization enables dense and expressive supervision across queries while mitigating overfitting and distributional drift. Building upon Grounding-DINO, we train a series of DINO-R1 family models that integrate a visual prompt encoder and a visual-guided query selection mechanism. Extensive experiments on COCO, LVIS, and ODinW demonstrate that DINO-R1 significantly outperforms supervised fine-tuning baselines, achieving strong generalization in both open-vocabulary and closed-set visual prompting scenarios.
PDF233June 2, 2025