VerIPO: 검증자 기반 반복 정책 최적화를 통한 비디오-LLM의 장기 추론 능력 강화
VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization
May 25, 2025
저자: Yunxin Li, Xinyu Chen, Zitao Li, Zhenyu Liu, Longyue Wang, Wenhan Luo, Baotian Hu, Min Zhang
cs.AI
초록
비디오 대형 언어 모델(Video-LLMs)에 강화 학습(Reinforcement Learning, RL)을 적용하는 것은 복잡한 비디오 추론에 있어 상당한 가능성을 보여줍니다. 그러나 결과 기반 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)와 같은 인기 있는 강화 미세 조정(Reinforcement Fine-Tuning, RFT) 방법은 데이터 준비 병목 현상(예: 노이즈 또는 높은 비용)으로 인해 제한되며, 긴 사고의 연쇄(Chain-of-Thoughts, CoTs)와 하위 작업 성능의 불안정한 개선을 보입니다. 이러한 한계를 해결하기 위해, 우리는 VerIPO(Verifier-guided Iterative Policy Optimization)를 제안합니다. 이 방법은 비디오 LLMs의 깊고 장기적인 추론 체인 생성 능력을 점진적으로 향상시키기 위해 설계되었습니다. 핵심 구성 요소는 롤아웃 인식 검증기(Rollout-Aware Verifier)로, GRPO와 직접 선호 최적화(Direct Preference Optimization, DPO) 훈련 단계 사이에 위치하여 GRPO-Verifier-DPO 훈련 루프를 형성합니다. 이 검증기는 소형 LLMs를 판단자로 활용하여 롤아웃의 추론 논리를 평가함으로써, 반영적이고 문맥적으로 일관된 CoTs를 포함한 고품질 대조 데이터를 구축할 수 있게 합니다. 이러한 선별된 선호 샘플은 DPO 단계를 효율적으로 진행하게 하여(GRPO보다 7배 빠름), 특히 길이와 문맥적 일관성 측면에서 추론 체인의 질을 크게 개선합니다. 이 훈련 루프는 GRPO의 광범위한 탐색과 DPO의 목표 지향적 최적화의 이점을 누립니다. 실험 결과는 다음과 같습니다: 1) 표준 GRPO 변종보다 훨씬 빠르고 효과적인 최적화로 우수한 성능을 달성; 2) 우리가 훈련한 모델은 대규모 지시 튜닝된 Video-LLMs의 직접 추론을 능가하며, 다양한 비디오 추론 작업에서 길고 문맥적으로 일관된 CoTs를 생성; 3) 한 번의 반복으로도 강력한 LMMs(예: Kimi-VL) 및 장기 추론 모델(예: Video-R1)을 능가하여 그 효과성과 안정성을 입증.
English
Applying Reinforcement Learning (RL) to Video Large Language Models
(Video-LLMs) shows significant promise for complex video reasoning. However,
popular Reinforcement Fine-Tuning (RFT) methods, such as outcome-based Group
Relative Policy Optimization (GRPO), are limited by data preparation
bottlenecks (e.g., noise or high cost) and exhibit unstable improvements in the
quality of long chain-of-thoughts (CoTs) and downstream performance.To address
these limitations, we propose VerIPO, a Verifier-guided Iterative Policy
Optimization method designed to gradually improve video LLMs' capacity for
generating deep, long-term reasoning chains. The core component is
Rollout-Aware Verifier, positioned between the GRPO and Direct Preference
Optimization (DPO) training phases to form the GRPO-Verifier-DPO training loop.
This verifier leverages small LLMs as a judge to assess the reasoning logic of
rollouts, enabling the construction of high-quality contrastive data, including
reflective and contextually consistent CoTs. These curated preference samples
drive the efficient DPO stage (7x faster than GRPO), leading to marked
improvements in reasoning chain quality, especially in terms of length and
contextual consistency. This training loop benefits from GRPO's expansive
search and DPO's targeted optimization. Experimental results demonstrate: 1)
Significantly faster and more effective optimization compared to standard GRPO
variants, yielding superior performance; 2) Our trained models exceed the
direct inference of large-scale instruction-tuned Video-LLMs, producing long
and contextually consistent CoTs on diverse video reasoning tasks; and 3) Our
model with one iteration outperforms powerful LMMs (e.g., Kimi-VL) and long
reasoning models (e.g., Video-R1), highlighting its effectiveness and
stability.Summary
AI-Generated Summary