ChatPaper.aiChatPaper

VerIPO : Cultiver un raisonnement long dans les Video-LLM via une optimisation itérative des politiques guidée par un vérificateur

VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization

May 25, 2025
Auteurs: Yunxin Li, Xinyu Chen, Zitao Li, Zhenyu Liu, Longyue Wang, Wenhan Luo, Baotian Hu, Min Zhang
cs.AI

Résumé

L'application de l'apprentissage par renforcement (Reinforcement Learning, RL) aux modèles de langage de grande taille pour la vidéo (Video-LLMs) montre un potentiel significatif pour le raisonnement complexe sur la vidéo. Cependant, les méthodes populaires de réglage fin par renforcement (Reinforcement Fine-Tuning, RFT), telles que l'optimisation de politique relative par groupe basée sur les résultats (Group Relative Policy Optimization, GRPO), sont limitées par des goulots d'étranglement dans la préparation des données (par exemple, le bruit ou le coût élevé) et présentent des améliorations instables dans la qualité des longues chaînes de raisonnement (chain-of-thoughts, CoTs) et des performances en aval. Pour répondre à ces limitations, nous proposons VerIPO, une méthode d'optimisation de politique itérative guidée par un vérificateur (Verifier-guided Iterative Policy Optimization), conçue pour améliorer progressivement la capacité des Video-LLMs à générer des chaînes de raisonnement profondes et à long terme. Le composant central est le vérificateur conscient des déploiements (Rollout-Aware Verifier), positionné entre les phases d'entraînement GRPO et d'optimisation des préférences directes (Direct Preference Optimization, DPO) pour former la boucle d'entraînement GRPO-Verifier-DPO. Ce vérificateur utilise de petits modèles de langage comme juges pour évaluer la logique de raisonnement des déploiements, permettant la construction de données contrastives de haute qualité, incluant des CoTs réfléchis et contextuellement cohérents. Ces échantillons de préférences soigneusement sélectionnés alimentent la phase DPO efficace (7 fois plus rapide que GRPO), conduisant à des améliorations marquées dans la qualité des chaînes de raisonnement, notamment en termes de longueur et de cohérence contextuelle. Cette boucle d'entraînement bénéficie de la recherche expansive de GRPO et de l'optimisation ciblée de DPO. Les résultats expérimentaux démontrent : 1) Une optimisation significativement plus rapide et plus efficace par rapport aux variantes standard de GRPO, offrant des performances supérieures ; 2) Nos modèles entraînés surpassent l'inférence directe des Video-LLMs à grande échelle réglés par instruction, produisant des CoTs longs et contextuellement cohérents sur diverses tâches de raisonnement vidéo ; et 3) Notre modèle avec une itération surpasse des modèles multimodaux puissants (par exemple, Kimi-VL) et des modèles de raisonnement long (par exemple, Video-R1), mettant en évidence son efficacité et sa stabilité.
English
Applying Reinforcement Learning (RL) to Video Large Language Models (Video-LLMs) shows significant promise for complex video reasoning. However, popular Reinforcement Fine-Tuning (RFT) methods, such as outcome-based Group Relative Policy Optimization (GRPO), are limited by data preparation bottlenecks (e.g., noise or high cost) and exhibit unstable improvements in the quality of long chain-of-thoughts (CoTs) and downstream performance.To address these limitations, we propose VerIPO, a Verifier-guided Iterative Policy Optimization method designed to gradually improve video LLMs' capacity for generating deep, long-term reasoning chains. The core component is Rollout-Aware Verifier, positioned between the GRPO and Direct Preference Optimization (DPO) training phases to form the GRPO-Verifier-DPO training loop. This verifier leverages small LLMs as a judge to assess the reasoning logic of rollouts, enabling the construction of high-quality contrastive data, including reflective and contextually consistent CoTs. These curated preference samples drive the efficient DPO stage (7x faster than GRPO), leading to marked improvements in reasoning chain quality, especially in terms of length and contextual consistency. This training loop benefits from GRPO's expansive search and DPO's targeted optimization. Experimental results demonstrate: 1) Significantly faster and more effective optimization compared to standard GRPO variants, yielding superior performance; 2) Our trained models exceed the direct inference of large-scale instruction-tuned Video-LLMs, producing long and contextually consistent CoTs on diverse video reasoning tasks; and 3) Our model with one iteration outperforms powerful LMMs (e.g., Kimi-VL) and long reasoning models (e.g., Video-R1), highlighting its effectiveness and stability.

Summary

AI-Generated Summary

PDF415May 28, 2025