Vision-R1: Эволюция автономного согласования в крупных визуально-языковых моделях с использованием визуально-направленного обучения с подкреплением
Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning
March 23, 2025
Авторы: Yufei Zhan, Yousong Zhu, Shurong Zheng, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang
cs.AI
Аннотация
Крупные модели, объединяющие зрение и язык (LVLMs), обычно следуют двухэтапной парадигме обучения — предварительное обучение и тонкая настройка с учителем. В последнее время оптимизация предпочтений, заимствованная из области обработки языка, стала эффективной стратегией пост-обучения для усиления возможностей LVLMs. Однако создание высококачественных данных с аннотациями предпочтений и разработка надежных моделей вознаграждения для имитации этих предпочтений являются как затратными, так и сложными задачами. Вдохновленные этим наблюдением, мы предлагаем Vision-R1 — новый алгоритм обучения с подкреплением, подобный R1, но с использованием визуального руководства для LVLMs, который вознаграждает модели на основе четкой визуальной обратной связи. Этот метод использует только тщательно отобранные данные инструкций, устраняя необходимость в специализированных моделях вознаграждения и ручном создании наборов данных предпочтений. Мы внедряем функцию вознаграждения, основанную на критериях, которая дополнительно интегрирует многомерную обратную связь для всесторонней оценки завершений модели в соответствии с логикой визуальной задачи. Кроме того, мы представляем стратегию постепенного уточнения правил, которая динамически корректирует критерии вознаграждения в процессе обучения, обеспечивая непрерывное улучшение модели и снижая риск манипуляции вознаграждением. Многочисленные эксперименты на тестах как в рамках распределения, так и за его пределами показывают, что тонкая настройка 7B LVLMs с использованием Vision-R1 приводит к стабильному повышению производительности, достигая улучшений до 50% и превосходя современные модели в 10 раз большего размера.
English
Large Vision-Language Models (LVLMs) typically follow a two-stage training
paradigm-pretraining and supervised fine-tuning. Recently, preference
optimization, derived from the language domain, has emerged as an effective
post-training reinforcement strategy to enhance capabilities of LVLMs. However,
constructing high-quality human-annotated preference data and developing robust
reward models to mimic these preferences are both costly and challenging.
Motivated by this observation, we propose Vision-R1, a novel vision-guided
R1-like reinforcement learning algorithm for LVLMs that rewards models with
definitive vision feedback. It only leverages curated instruction data,
eliminating the need for specialized reward models and handcrafted preference
datasets. We incorporate a criterion-driven reward function that further
integrates multi-dimensional feedback to evaluate model completions
comprehensively based on the vision task logic. Furthermore, we introduce a
progressive rule refinement strategy that dynamically adjusts the reward
criteria during training, enabling continuous model improvement and mitigating
reward hacking. Extensive experiments on both in-distribution and
out-of-distribution benchmarks demonstrate that fine-tuning the 7B LVLMs with
Vision-R1 achieves consistent performance gains, with even up to 50%
improvement and surpassing the state-of-the-art 10x size model.Summary
AI-Generated Summary