DINO-R1: Стимулирование способности к логическому рассуждению в базовых моделях компьютерного зрения
DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models
May 29, 2025
Авторы: Chenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren
cs.AI
Аннотация
Недавний взрывной интерес к способностям крупных языковых моделей к рассуждению, таких как DeepSeek-R1, продемонстрировал впечатляющие успехи благодаря методам тонкой настройки на основе обучения с подкреплением, примером которых является метод Group Relative Policy Optimization (GRPO). Однако такие способности к рассуждению остаются недостаточно изученными и практически отсутствуют в базовых моделях для обработки изображений, включая модели представления, такие как серия DINO. В данной работе мы предлагаем DINO-R1 — первую попытку стимулировать способности к визуальному контекстному рассуждению в базовых моделях для обработки изображений с использованием обучения с подкреплением. В частности, DINO-R1 представляет Group Relative Query Optimization (GRQO) — новую стратегию обучения в стиле обучения с подкреплением, специально разработанную для моделей представления на основе запросов, которая вычисляет вознаграждения на уровне запросов на основе качества выравнивания, нормализованного по группам. Мы также применяем KL-регуляризацию для стабилизации распределения объектности, чтобы снизить нестабильность обучения. Совместная оптимизация позволяет обеспечить плотный и выразительный контроль над запросами, одновременно смягчая проблемы переобучения и смещения распределения. На основе Grounding-DINO мы обучаем серию моделей семейства DINO-R1, которые интегрируют визуальный кодировщик подсказок и механизм выбора запросов, управляемый визуальными данными. Многочисленные эксперименты на наборах данных COCO, LVIS и ODinW демонстрируют, что DINO-R1 значительно превосходит базовые методы контролируемой тонкой настройки, достигая высокой обобщающей способности как в сценариях открытого словаря, так и в закрытых наборах визуальных подсказок.
English
The recent explosive interest in the reasoning capabilities of large language
models, such as DeepSeek-R1, has demonstrated remarkable success through
reinforcement learning-based fine-tuning frameworks, exemplified by methods
like Group Relative Policy Optimization (GRPO). However, such reasoning
abilities remain underexplored and notably absent in vision foundation models,
including representation models like the DINO series. In this work, we propose
DINO-R1, the first such attempt to incentivize visual in-context
reasoning capabilities of vision foundation models using reinforcement
learning. Specifically, DINO-R1 introduces Group Relative Query
Optimization (GRQO), a novel reinforcement-style training strategy explicitly
designed for query-based representation models, which computes query-level
rewards based on group-normalized alignment quality. We also apply
KL-regularization to stabilize the objectness distribution to reduce the
training instability. This joint optimization enables dense and expressive
supervision across queries while mitigating overfitting and distributional
drift. Building upon Grounding-DINO, we train a series of DINO-R1 family models
that integrate a visual prompt encoder and a visual-guided query selection
mechanism. Extensive experiments on COCO, LVIS, and ODinW demonstrate that
DINO-R1 significantly outperforms supervised fine-tuning baselines, achieving
strong generalization in both open-vocabulary and closed-set visual prompting
scenarios.