VerIPO: Развитие длинных рассуждений в видео-ориентированных языковых моделях с помощью оптимизации политики, управляемой верификатором
VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization
May 25, 2025
Авторы: Yunxin Li, Xinyu Chen, Zitao Li, Zhenyu Liu, Longyue Wang, Wenhan Luo, Baotian Hu, Min Zhang
cs.AI
Аннотация
Применение обучения с подкреплением (Reinforcement Learning, RL) к видеомоделям с большим языковым контекстом (Video-LLMs) демонстрирует значительный потенциал для сложного анализа видеоданных. Однако популярные методы тонкой настройки с использованием подкрепления (Reinforcement Fine-Tuning, RFT), такие как оптимизация групповой относительной политики на основе результатов (Group Relative Policy Optimization, GRPO), ограничены проблемами подготовки данных (например, шум или высокая стоимость) и показывают нестабильные улучшения в качестве длинных цепочек рассуждений (chain-of-thoughts, CoTs) и производительности на последующих этапах. Для решения этих ограничений мы предлагаем VerIPO — метод итеративной оптимизации политики с использованием верификатора (Verifier-guided Iterative Policy Optimization), предназначенный для постепенного улучшения способности видеомоделей генерировать глубокие и долгосрочные цепочки рассуждений. Ключевым компонентом является верификатор, учитывающий результаты развертывания (Rollout-Aware Verifier), который располагается между фазами обучения GRPO и оптимизации прямых предпочтений (Direct Preference Optimization, DPO), формируя цикл обучения GRPO-Verifier-DPO. Этот верификатор использует небольшие языковые модели в качестве судьи для оценки логики рассуждений в развертываниях, что позволяет создавать высококачественные контрастные данные, включая рефлексивные и контекстуально согласованные CoTs. Эти тщательно отобранные примеры предпочтений обеспечивают эффективный этап DPO (в 7 раз быстрее, чем GRPO), приводя к заметным улучшениям качества цепочек рассуждений, особенно в плане длины и контекстуальной согласованности. Этот цикл обучения сочетает преимущества широкого поиска GRPO и целенаправленной оптимизации DPO. Экспериментальные результаты показывают: 1) Значительно более быструю и эффективную оптимизацию по сравнению со стандартными вариантами GRPO, что приводит к превосходной производительности; 2) Наши обученные модели превосходят прямое использование крупномасштабных видеомоделей, настроенных на инструкции, генерируя длинные и контекстуально согласованные CoTs в разнообразных задачах анализа видеоданных; и 3) Наша модель с одной итерацией превосходит мощные мультимодальные модели (например, Kimi-VL) и модели для длинных рассуждений (например, Video-R1), подчеркивая её эффективность и стабильность.
English
Applying Reinforcement Learning (RL) to Video Large Language Models
(Video-LLMs) shows significant promise for complex video reasoning. However,
popular Reinforcement Fine-Tuning (RFT) methods, such as outcome-based Group
Relative Policy Optimization (GRPO), are limited by data preparation
bottlenecks (e.g., noise or high cost) and exhibit unstable improvements in the
quality of long chain-of-thoughts (CoTs) and downstream performance.To address
these limitations, we propose VerIPO, a Verifier-guided Iterative Policy
Optimization method designed to gradually improve video LLMs' capacity for
generating deep, long-term reasoning chains. The core component is
Rollout-Aware Verifier, positioned between the GRPO and Direct Preference
Optimization (DPO) training phases to form the GRPO-Verifier-DPO training loop.
This verifier leverages small LLMs as a judge to assess the reasoning logic of
rollouts, enabling the construction of high-quality contrastive data, including
reflective and contextually consistent CoTs. These curated preference samples
drive the efficient DPO stage (7x faster than GRPO), leading to marked
improvements in reasoning chain quality, especially in terms of length and
contextual consistency. This training loop benefits from GRPO's expansive
search and DPO's targeted optimization. Experimental results demonstrate: 1)
Significantly faster and more effective optimization compared to standard GRPO
variants, yielding superior performance; 2) Our trained models exceed the
direct inference of large-scale instruction-tuned Video-LLMs, producing long
and contextually consistent CoTs on diverse video reasoning tasks; and 3) Our
model with one iteration outperforms powerful LMMs (e.g., Kimi-VL) and long
reasoning models (e.g., Video-R1), highlighting its effectiveness and
stability.Summary
AI-Generated Summary