ChatPaper.aiChatPaper

DINO-R1: Стимулирование способности к логическому рассуждению в базовых моделях компьютерного зрения

DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models

May 29, 2025
Авторы: Chenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren
cs.AI

Аннотация

Недавний взрывной интерес к способностям крупных языковых моделей к рассуждению, таких как DeepSeek-R1, продемонстрировал впечатляющие успехи благодаря методам тонкой настройки на основе обучения с подкреплением, примером которых является метод Group Relative Policy Optimization (GRPO). Однако такие способности к рассуждению остаются недостаточно изученными и практически отсутствуют в базовых моделях для обработки изображений, включая модели представления, такие как серия DINO. В данной работе мы предлагаем DINO-R1 — первую попытку стимулировать способности к визуальному контекстному рассуждению в базовых моделях для обработки изображений с использованием обучения с подкреплением. В частности, DINO-R1 представляет Group Relative Query Optimization (GRQO) — новую стратегию обучения в стиле обучения с подкреплением, специально разработанную для моделей представления на основе запросов, которая вычисляет вознаграждения на уровне запросов на основе качества выравнивания, нормализованного по группам. Мы также применяем KL-регуляризацию для стабилизации распределения объектности, чтобы снизить нестабильность обучения. Совместная оптимизация позволяет обеспечить плотный и выразительный контроль над запросами, одновременно смягчая проблемы переобучения и смещения распределения. На основе Grounding-DINO мы обучаем серию моделей семейства DINO-R1, которые интегрируют визуальный кодировщик подсказок и механизм выбора запросов, управляемый визуальными данными. Многочисленные эксперименты на наборах данных COCO, LVIS и ODinW демонстрируют, что DINO-R1 значительно превосходит базовые методы контролируемой тонкой настройки, достигая высокой обобщающей способности как в сценариях открытого словаря, так и в закрытых наборах визуальных подсказок.
English
The recent explosive interest in the reasoning capabilities of large language models, such as DeepSeek-R1, has demonstrated remarkable success through reinforcement learning-based fine-tuning frameworks, exemplified by methods like Group Relative Policy Optimization (GRPO). However, such reasoning abilities remain underexplored and notably absent in vision foundation models, including representation models like the DINO series. In this work, we propose DINO-R1, the first such attempt to incentivize visual in-context reasoning capabilities of vision foundation models using reinforcement learning. Specifically, DINO-R1 introduces Group Relative Query Optimization (GRQO), a novel reinforcement-style training strategy explicitly designed for query-based representation models, which computes query-level rewards based on group-normalized alignment quality. We also apply KL-regularization to stabilize the objectness distribution to reduce the training instability. This joint optimization enables dense and expressive supervision across queries while mitigating overfitting and distributional drift. Building upon Grounding-DINO, we train a series of DINO-R1 family models that integrate a visual prompt encoder and a visual-guided query selection mechanism. Extensive experiments on COCO, LVIS, and ODinW demonstrate that DINO-R1 significantly outperforms supervised fine-tuning baselines, achieving strong generalization in both open-vocabulary and closed-set visual prompting scenarios.
PDF233June 2, 2025