ChatPaper.aiChatPaper

VerIPO: Förderung langer Schlussfolgerungen in Video-LLMs durch verifizierergeleitete iterative Politikoptimierung

VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization

May 25, 2025
Autoren: Yunxin Li, Xinyu Chen, Zitao Li, Zhenyu Liu, Longyue Wang, Wenhan Luo, Baotian Hu, Min Zhang
cs.AI

Zusammenfassung

Die Anwendung von Reinforcement Learning (RL) auf Video Large Language Models (Video-LLMs) zeigt vielversprechende Ergebnisse für komplexe Videoanalysen. Allerdings sind gängige Reinforcement Fine-Tuning (RFT)-Methoden wie das ergebnisbasierte Group Relative Policy Optimization (GRPO) durch Engpässe bei der Datenvorbereitung (z. B. Rauschen oder hohe Kosten) begrenzt und zeigen instabile Verbesserungen in der Qualität langer Gedankenketten (Chain-of-Thoughts, CoTs) und der nachgelagerten Leistung. Um diese Einschränkungen zu überwinden, schlagen wir VerIPO vor, eine Verifier-gestützte Iterative Policy Optimization-Methode, die darauf abzielt, die Fähigkeit von Video-LLMs zur Generierung tiefer, langfristiger Gedankenketten schrittweise zu verbessern. Die Kernkomponente ist der Rollout-Aware Verifier, der zwischen den GRPO- und Direct Preference Optimization (DPO)-Trainingsphasen positioniert ist, um den GRPO-Verifier-DPO-Trainingszyklus zu bilden. Dieser Verifier nutzt kleine LLMs als Bewertungseinheit, um die Logik der Gedankenketten in Rollouts zu beurteilen, wodurch die Erstellung hochwertiger kontrastiver Daten ermöglicht wird, einschließlich reflektiver und kontextuell konsistenter CoTs. Diese kuratierten Präferenzbeispiele treiben die effiziente DPO-Phase an (7x schneller als GRPO) und führen zu deutlichen Verbesserungen in der Qualität der Gedankenketten, insbesondere in Bezug auf Länge und kontextuelle Konsistenz. Dieser Trainingszyklus profitiert von der umfassenden Suche des GRPO und der gezielten Optimierung des DPO. Experimentelle Ergebnisse zeigen: 1) Eine deutlich schnellere und effektivere Optimierung im Vergleich zu Standard-GRPO-Varianten, die eine überlegene Leistung erzielt; 2) Unsere trainierten Modelle übertreffen die direkte Inferenz großskaliger, instruktionsoptimierter Video-LLMs und erzeugen lange, kontextuell konsistente CoTs bei verschiedenen Videoanalysen; und 3) Unser Modell mit einer Iteration übertrifft leistungsstarke LMMs (z. B. Kimi-VL) und Langzeit-Analysemodelle (z. B. Video-R1), was seine Effektivität und Stabilität unterstreicht.
English
Applying Reinforcement Learning (RL) to Video Large Language Models (Video-LLMs) shows significant promise for complex video reasoning. However, popular Reinforcement Fine-Tuning (RFT) methods, such as outcome-based Group Relative Policy Optimization (GRPO), are limited by data preparation bottlenecks (e.g., noise or high cost) and exhibit unstable improvements in the quality of long chain-of-thoughts (CoTs) and downstream performance.To address these limitations, we propose VerIPO, a Verifier-guided Iterative Policy Optimization method designed to gradually improve video LLMs' capacity for generating deep, long-term reasoning chains. The core component is Rollout-Aware Verifier, positioned between the GRPO and Direct Preference Optimization (DPO) training phases to form the GRPO-Verifier-DPO training loop. This verifier leverages small LLMs as a judge to assess the reasoning logic of rollouts, enabling the construction of high-quality contrastive data, including reflective and contextually consistent CoTs. These curated preference samples drive the efficient DPO stage (7x faster than GRPO), leading to marked improvements in reasoning chain quality, especially in terms of length and contextual consistency. This training loop benefits from GRPO's expansive search and DPO's targeted optimization. Experimental results demonstrate: 1) Significantly faster and more effective optimization compared to standard GRPO variants, yielding superior performance; 2) Our trained models exceed the direct inference of large-scale instruction-tuned Video-LLMs, producing long and contextually consistent CoTs on diverse video reasoning tasks; and 3) Our model with one iteration outperforms powerful LMMs (e.g., Kimi-VL) and long reasoning models (e.g., Video-R1), highlighting its effectiveness and stability.

Summary

AI-Generated Summary

PDF415May 28, 2025