ChatPaper.aiChatPaper

VerIPO: Het bevorderen van lang redeneren in Video-LLM's via Verifier-Gestuurde Iteratieve Beleidsoptimalisatie

VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization

May 25, 2025
Auteurs: Yunxin Li, Xinyu Chen, Zitao Li, Zhenyu Liu, Longyue Wang, Wenhan Luo, Baotian Hu, Min Zhang
cs.AI

Samenvatting

Het toepassen van Reinforcement Learning (RL) op Video Large Language Models (Video-LLMs) toont veelbelovende mogelijkheden voor complexe videoredenering. Populaire Reinforcement Fine-Tuning (RFT) methoden, zoals outcome-based Group Relative Policy Optimization (GRPO), worden echter beperkt door knelpunten in de dataverwerking (bijvoorbeeld ruis of hoge kosten) en vertonen onstabiele verbeteringen in de kwaliteit van lange ketens van gedachten (CoTs) en downstreamprestaties. Om deze beperkingen aan te pakken, stellen wij VerIPO voor, een Verifier-guided Iterative Policy Optimization-methode die is ontworpen om de capaciteit van video-LLMs voor het genereren van diepe, langetermijnredeneringsketens geleidelijk te verbeteren. De kerncomponent is de Rollout-Aware Verifier, die tussen de GRPO- en Direct Preference Optimization (DPO)-trainingsfasen wordt geplaatst om de GRPO-Verifier-DPO-trainingslus te vormen. Deze verifier maakt gebruik van kleine LLMs als beoordelaar om de redeneerlogica van rollouts te beoordelen, waardoor de constructie van hoogwaardige contrastieve data mogelijk wordt, inclusief reflectieve en contextueel consistente CoTs. Deze gecureerde voorkeursmonsters sturen de efficiënte DPO-fase aan (7x sneller dan GRPO), wat leidt tot aanzienlijke verbeteringen in de kwaliteit van redeneeringsketens, vooral wat betreft lengte en contextuele consistentie. Deze trainingslus profiteert van de uitgebreide zoekmogelijkheden van GRPO en de gerichte optimalisatie van DPO. Experimentele resultaten tonen aan: 1) Aanzienlijk snellere en effectievere optimalisatie in vergelijking met standaard GRPO-varianten, wat resulteert in superieure prestaties; 2) Onze getrainde modellen overtreffen de directe inferentie van grootschalige instructie-getunede Video-LLMs, waarbij lange en contextueel consistente CoTs worden geproduceerd voor diverse videoredeneertaken; en 3) Ons model met één iteratie presteert beter dan krachtige LMMs (bijvoorbeeld Kimi-VL) en lange redeneermodellen (bijvoorbeeld Video-R1), wat de effectiviteit en stabiliteit ervan benadrukt.
English
Applying Reinforcement Learning (RL) to Video Large Language Models (Video-LLMs) shows significant promise for complex video reasoning. However, popular Reinforcement Fine-Tuning (RFT) methods, such as outcome-based Group Relative Policy Optimization (GRPO), are limited by data preparation bottlenecks (e.g., noise or high cost) and exhibit unstable improvements in the quality of long chain-of-thoughts (CoTs) and downstream performance.To address these limitations, we propose VerIPO, a Verifier-guided Iterative Policy Optimization method designed to gradually improve video LLMs' capacity for generating deep, long-term reasoning chains. The core component is Rollout-Aware Verifier, positioned between the GRPO and Direct Preference Optimization (DPO) training phases to form the GRPO-Verifier-DPO training loop. This verifier leverages small LLMs as a judge to assess the reasoning logic of rollouts, enabling the construction of high-quality contrastive data, including reflective and contextually consistent CoTs. These curated preference samples drive the efficient DPO stage (7x faster than GRPO), leading to marked improvements in reasoning chain quality, especially in terms of length and contextual consistency. This training loop benefits from GRPO's expansive search and DPO's targeted optimization. Experimental results demonstrate: 1) Significantly faster and more effective optimization compared to standard GRPO variants, yielding superior performance; 2) Our trained models exceed the direct inference of large-scale instruction-tuned Video-LLMs, producing long and contextually consistent CoTs on diverse video reasoning tasks; and 3) Our model with one iteration outperforms powerful LMMs (e.g., Kimi-VL) and long reasoning models (e.g., Video-R1), highlighting its effectiveness and stability.
PDF426May 28, 2025