VerIPO: Coltivare il ragionamento esteso nei Video-LLM tramite Ottimizzazione Iterativa delle Politiche Guidata da Verificatori

Abstract

L'applicazione del Reinforcement Learning (RL) ai Modelli Linguistici di Grande Scala per Video (Video-LLMs) mostra un potenziale significativo per il ragionamento complesso sui video. Tuttavia, i metodi popolari di Raffinamento con Rinforzo (RFT), come l'ottimizzazione delle politiche relative ai gruppi basata sui risultati (GRPO), sono limitati da colli di bottiglia nella preparazione dei dati (ad esempio, rumore o costi elevati) e mostrano miglioramenti instabili nella qualità delle lunghe catene di pensiero (CoTs) e nelle prestazioni a valle. Per affrontare queste limitazioni, proponiamo VerIPO, un metodo di Ottimizzazione Iterativa delle Politiche guidata da Verificatore, progettato per migliorare gradualmente la capacità dei Video-LLMs di generare catene di ragionamento profonde e a lungo termine. Il componente centrale è il Verificatore Consapevole dei Rollout, posizionato tra le fasi di addestramento GRPO e Ottimizzazione Diretta delle Preferenze (DPO) per formare il ciclo di addestramento GRPO-Verificatore-DPO. Questo verificatore utilizza piccoli LLMs come giudici per valutare la logica di ragionamento dei rollout, consentendo la costruzione di dati contrastivi di alta qualità, inclusi CoT riflessivi e contestualmente coerenti. Questi campioni di preferenza curati guidano la fase efficiente di DPO (7 volte più veloce rispetto a GRPO), portando a miglioramenti marcati nella qualità delle catene di ragionamento, specialmente in termini di lunghezza e coerenza contestuale. Questo ciclo di addestramento beneficia della ricerca estensiva di GRPO e dell'ottimizzazione mirata di DPO. I risultati sperimentali dimostrano: 1) Un'ottimizzazione significativamente più veloce ed efficace rispetto alle varianti standard di GRPO, ottenendo prestazioni superiori; 2) I nostri modelli addestrati superano l'inferenza diretta di Video-LLMs su larga scala addestrati con istruzioni, producendo CoT lunghi e contestualmente coerenti su diverse attività di ragionamento video; e 3) Il nostro modello con una singola iterazione supera potenti LMM (ad esempio, Kimi-VL) e modelli di ragionamento lungo (ad esempio, Video-R1), evidenziandone l'efficacia e la stabilità.

English

Applying Reinforcement Learning (RL) to Video Large Language Models (Video-LLMs) shows significant promise for complex video reasoning. However, popular Reinforcement Fine-Tuning (RFT) methods, such as outcome-based Group Relative Policy Optimization (GRPO), are limited by data preparation bottlenecks (e.g., noise or high cost) and exhibit unstable improvements in the quality of long chain-of-thoughts (CoTs) and downstream performance.To address these limitations, we propose VerIPO, a Verifier-guided Iterative Policy Optimization method designed to gradually improve video LLMs' capacity for generating deep, long-term reasoning chains. The core component is Rollout-Aware Verifier, positioned between the GRPO and Direct Preference Optimization (DPO) training phases to form the GRPO-Verifier-DPO training loop. This verifier leverages small LLMs as a judge to assess the reasoning logic of rollouts, enabling the construction of high-quality contrastive data, including reflective and contextually consistent CoTs. These curated preference samples drive the efficient DPO stage (7x faster than GRPO), leading to marked improvements in reasoning chain quality, especially in terms of length and contextual consistency. This training loop benefits from GRPO's expansive search and DPO's targeted optimization. Experimental results demonstrate: 1) Significantly faster and more effective optimization compared to standard GRPO variants, yielding superior performance; 2) Our trained models exceed the direct inference of large-scale instruction-tuned Video-LLMs, producing long and contextually consistent CoTs on diverse video reasoning tasks; and 3) Our model with one iteration outperforms powerful LMMs (e.g., Kimi-VL) and long reasoning models (e.g., Video-R1), highlighting its effectiveness and stability.

VerIPO: Coltivare il ragionamento esteso nei Video-LLM tramite Ottimizzazione Iterativa delle Politiche Guidata da Verificatori

VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization

Abstract

Support