ChatPaper.aiChatPaper

VerIPO: Развитие длинных рассуждений в видео-ориентированных языковых моделях с помощью оптимизации политики, управляемой верификатором

VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization

May 25, 2025
Авторы: Yunxin Li, Xinyu Chen, Zitao Li, Zhenyu Liu, Longyue Wang, Wenhan Luo, Baotian Hu, Min Zhang
cs.AI

Аннотация

Применение обучения с подкреплением (Reinforcement Learning, RL) к видеомоделям с большим языковым контекстом (Video-LLMs) демонстрирует значительный потенциал для сложного анализа видеоданных. Однако популярные методы тонкой настройки с использованием подкрепления (Reinforcement Fine-Tuning, RFT), такие как оптимизация групповой относительной политики на основе результатов (Group Relative Policy Optimization, GRPO), ограничены проблемами подготовки данных (например, шум или высокая стоимость) и показывают нестабильные улучшения в качестве длинных цепочек рассуждений (chain-of-thoughts, CoTs) и производительности на последующих этапах. Для решения этих ограничений мы предлагаем VerIPO — метод итеративной оптимизации политики с использованием верификатора (Verifier-guided Iterative Policy Optimization), предназначенный для постепенного улучшения способности видеомоделей генерировать глубокие и долгосрочные цепочки рассуждений. Ключевым компонентом является верификатор, учитывающий результаты развертывания (Rollout-Aware Verifier), который располагается между фазами обучения GRPO и оптимизации прямых предпочтений (Direct Preference Optimization, DPO), формируя цикл обучения GRPO-Verifier-DPO. Этот верификатор использует небольшие языковые модели в качестве судьи для оценки логики рассуждений в развертываниях, что позволяет создавать высококачественные контрастные данные, включая рефлексивные и контекстуально согласованные CoTs. Эти тщательно отобранные примеры предпочтений обеспечивают эффективный этап DPO (в 7 раз быстрее, чем GRPO), приводя к заметным улучшениям качества цепочек рассуждений, особенно в плане длины и контекстуальной согласованности. Этот цикл обучения сочетает преимущества широкого поиска GRPO и целенаправленной оптимизации DPO. Экспериментальные результаты показывают: 1) Значительно более быструю и эффективную оптимизацию по сравнению со стандартными вариантами GRPO, что приводит к превосходной производительности; 2) Наши обученные модели превосходят прямое использование крупномасштабных видеомоделей, настроенных на инструкции, генерируя длинные и контекстуально согласованные CoTs в разнообразных задачах анализа видеоданных; и 3) Наша модель с одной итерацией превосходит мощные мультимодальные модели (например, Kimi-VL) и модели для длинных рассуждений (например, Video-R1), подчеркивая её эффективность и стабильность.
English
Applying Reinforcement Learning (RL) to Video Large Language Models (Video-LLMs) shows significant promise for complex video reasoning. However, popular Reinforcement Fine-Tuning (RFT) methods, such as outcome-based Group Relative Policy Optimization (GRPO), are limited by data preparation bottlenecks (e.g., noise or high cost) and exhibit unstable improvements in the quality of long chain-of-thoughts (CoTs) and downstream performance.To address these limitations, we propose VerIPO, a Verifier-guided Iterative Policy Optimization method designed to gradually improve video LLMs' capacity for generating deep, long-term reasoning chains. The core component is Rollout-Aware Verifier, positioned between the GRPO and Direct Preference Optimization (DPO) training phases to form the GRPO-Verifier-DPO training loop. This verifier leverages small LLMs as a judge to assess the reasoning logic of rollouts, enabling the construction of high-quality contrastive data, including reflective and contextually consistent CoTs. These curated preference samples drive the efficient DPO stage (7x faster than GRPO), leading to marked improvements in reasoning chain quality, especially in terms of length and contextual consistency. This training loop benefits from GRPO's expansive search and DPO's targeted optimization. Experimental results demonstrate: 1) Significantly faster and more effective optimization compared to standard GRPO variants, yielding superior performance; 2) Our trained models exceed the direct inference of large-scale instruction-tuned Video-LLMs, producing long and contextually consistent CoTs on diverse video reasoning tasks; and 3) Our model with one iteration outperforms powerful LMMs (e.g., Kimi-VL) and long reasoning models (e.g., Video-R1), highlighting its effectiveness and stability.

Summary

AI-Generated Summary

PDF415May 28, 2025