DINO-R1: Incentivizando la Capacidad de Razonamiento en Modelos Fundamentales de Visión
DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models
May 29, 2025
Autores: Chenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren
cs.AI
Resumen
El reciente y explosivo interés en las capacidades de razonamiento de los modelos de lenguaje grandes, como DeepSeek-R1, ha demostrado un éxito notable a través de marcos de ajuste fino basados en aprendizaje por refuerzo, ejemplificados por métodos como Group Relative Policy Optimization (GRPO). Sin embargo, tales habilidades de razonamiento siguen siendo poco exploradas y notablemente ausentes en los modelos fundamentales de visión, incluyendo modelos de representación como la serie DINO. En este trabajo, proponemos DINO-R1, el primer intento de incentivar las capacidades de razonamiento visual en contexto de los modelos fundamentales de visión utilizando aprendizaje por refuerzo. Específicamente, DINO-R1 introduce Group Relative Query Optimization (GRQO), una novedosa estrategia de entrenamiento de estilo refuerzo diseñada explícitamente para modelos de representación basados en consultas, que calcula recompensas a nivel de consulta basadas en la calidad de alineación normalizada por grupo. También aplicamos regularización KL para estabilizar la distribución de objetividad y reducir la inestabilidad del entrenamiento. Esta optimización conjunta permite una supervisión densa y expresiva a través de las consultas mientras mitiga el sobreajuste y la deriva distribucional. Basándonos en Grounding-DINO, entrenamos una serie de modelos de la familia DINO-R1 que integran un codificador de indicaciones visuales y un mecanismo de selección de consultas guiado visualmente. Experimentos extensivos en COCO, LVIS y ODinW demuestran que DINO-R1 supera significativamente los baselines de ajuste fino supervisado, logrando una fuerte generalización tanto en escenarios de indicación visual de vocabulario abierto como de conjunto cerrado.
English
The recent explosive interest in the reasoning capabilities of large language
models, such as DeepSeek-R1, has demonstrated remarkable success through
reinforcement learning-based fine-tuning frameworks, exemplified by methods
like Group Relative Policy Optimization (GRPO). However, such reasoning
abilities remain underexplored and notably absent in vision foundation models,
including representation models like the DINO series. In this work, we propose
DINO-R1, the first such attempt to incentivize visual in-context
reasoning capabilities of vision foundation models using reinforcement
learning. Specifically, DINO-R1 introduces Group Relative Query
Optimization (GRQO), a novel reinforcement-style training strategy explicitly
designed for query-based representation models, which computes query-level
rewards based on group-normalized alignment quality. We also apply
KL-regularization to stabilize the objectness distribution to reduce the
training instability. This joint optimization enables dense and expressive
supervision across queries while mitigating overfitting and distributional
drift. Building upon Grounding-DINO, we train a series of DINO-R1 family models
that integrate a visual prompt encoder and a visual-guided query selection
mechanism. Extensive experiments on COCO, LVIS, and ODinW demonstrate that
DINO-R1 significantly outperforms supervised fine-tuning baselines, achieving
strong generalization in both open-vocabulary and closed-set visual prompting
scenarios.