VerIPO: Coltivare il ragionamento esteso nei Video-LLM tramite Ottimizzazione Iterativa delle Politiche Guidata da Verificatori
VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization
May 25, 2025
Autori: Yunxin Li, Xinyu Chen, Zitao Li, Zhenyu Liu, Longyue Wang, Wenhan Luo, Baotian Hu, Min Zhang
cs.AI
Abstract
L'applicazione del Reinforcement Learning (RL) ai Modelli Linguistici di Grande Scala per Video (Video-LLMs) mostra un potenziale significativo per il ragionamento complesso sui video. Tuttavia, i metodi popolari di Raffinamento con Rinforzo (RFT), come l'ottimizzazione delle politiche relative ai gruppi basata sui risultati (GRPO), sono limitati da colli di bottiglia nella preparazione dei dati (ad esempio, rumore o costi elevati) e mostrano miglioramenti instabili nella qualità delle lunghe catene di pensiero (CoTs) e nelle prestazioni a valle. Per affrontare queste limitazioni, proponiamo VerIPO, un metodo di Ottimizzazione Iterativa delle Politiche guidata da Verificatore, progettato per migliorare gradualmente la capacità dei Video-LLMs di generare catene di ragionamento profonde e a lungo termine. Il componente centrale è il Verificatore Consapevole dei Rollout, posizionato tra le fasi di addestramento GRPO e Ottimizzazione Diretta delle Preferenze (DPO) per formare il ciclo di addestramento GRPO-Verificatore-DPO. Questo verificatore utilizza piccoli LLMs come giudici per valutare la logica di ragionamento dei rollout, consentendo la costruzione di dati contrastivi di alta qualità, inclusi CoT riflessivi e contestualmente coerenti. Questi campioni di preferenza curati guidano la fase efficiente di DPO (7 volte più veloce rispetto a GRPO), portando a miglioramenti marcati nella qualità delle catene di ragionamento, specialmente in termini di lunghezza e coerenza contestuale. Questo ciclo di addestramento beneficia della ricerca estensiva di GRPO e dell'ottimizzazione mirata di DPO. I risultati sperimentali dimostrano: 1) Un'ottimizzazione significativamente più veloce ed efficace rispetto alle varianti standard di GRPO, ottenendo prestazioni superiori; 2) I nostri modelli addestrati superano l'inferenza diretta di Video-LLMs su larga scala addestrati con istruzioni, producendo CoT lunghi e contestualmente coerenti su diverse attività di ragionamento video; e 3) Il nostro modello con una singola iterazione supera potenti LMM (ad esempio, Kimi-VL) e modelli di ragionamento lungo (ad esempio, Video-R1), evidenziandone l'efficacia e la stabilità.
English
Applying Reinforcement Learning (RL) to Video Large Language Models
(Video-LLMs) shows significant promise for complex video reasoning. However,
popular Reinforcement Fine-Tuning (RFT) methods, such as outcome-based Group
Relative Policy Optimization (GRPO), are limited by data preparation
bottlenecks (e.g., noise or high cost) and exhibit unstable improvements in the
quality of long chain-of-thoughts (CoTs) and downstream performance.To address
these limitations, we propose VerIPO, a Verifier-guided Iterative Policy
Optimization method designed to gradually improve video LLMs' capacity for
generating deep, long-term reasoning chains. The core component is
Rollout-Aware Verifier, positioned between the GRPO and Direct Preference
Optimization (DPO) training phases to form the GRPO-Verifier-DPO training loop.
This verifier leverages small LLMs as a judge to assess the reasoning logic of
rollouts, enabling the construction of high-quality contrastive data, including
reflective and contextually consistent CoTs. These curated preference samples
drive the efficient DPO stage (7x faster than GRPO), leading to marked
improvements in reasoning chain quality, especially in terms of length and
contextual consistency. This training loop benefits from GRPO's expansive
search and DPO's targeted optimization. Experimental results demonstrate: 1)
Significantly faster and more effective optimization compared to standard GRPO
variants, yielding superior performance; 2) Our trained models exceed the
direct inference of large-scale instruction-tuned Video-LLMs, producing long
and contextually consistent CoTs on diverse video reasoning tasks; and 3) Our
model with one iteration outperforms powerful LMMs (e.g., Kimi-VL) and long
reasoning models (e.g., Video-R1), highlighting its effectiveness and
stability.