VerIPO: Cultivando Raciocínio Longo em Video-LLMs via Otimização Iterativa de Políticas Guiada por Verificador
VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization
May 25, 2025
Autores: Yunxin Li, Xinyu Chen, Zitao Li, Zhenyu Liu, Longyue Wang, Wenhan Luo, Baotian Hu, Min Zhang
cs.AI
Resumo
A aplicação de Aprendizado por Reforço (RL) a Modelos de Linguagem de Grande Escala para Vídeo (Video-LLMs) mostra um potencial significativo para o raciocínio complexo em vídeos. No entanto, métodos populares de Ajuste Fino por Reforço (RFT), como a Otimização de Política Relativa de Grupo baseada em Resultados (GRPO), são limitados por gargalos na preparação de dados (por exemplo, ruído ou alto custo) e exibem melhorias instáveis na qualidade de cadeias longas de pensamento (CoTs) e no desempenho em tarefas subsequentes. Para abordar essas limitações, propomos o VerIPO, um método de Otimização de Política Iterativa Guiada por Verificador, projetado para melhorar gradualmente a capacidade dos Video-LLMs de gerar cadeias de raciocínio profundas e de longo prazo. O componente central é o Verificador Consciente de Rollout, posicionado entre as fases de treinamento GRPO e Otimização de Preferência Direta (DPO) para formar o ciclo de treinamento GRPO-Verificador-DPO. Esse verificador utiliza pequenos LLMs como juízes para avaliar a lógica de raciocínio dos rollouts, permitindo a construção de dados contrastivos de alta qualidade, incluindo CoTs reflexivos e contextualmente consistentes. Essas amostras de preferência curadas impulsionam a etapa eficiente de DPO (7x mais rápida que a GRPO), levando a melhorias marcantes na qualidade das cadeias de raciocínio, especialmente em termos de comprimento e consistência contextual. Esse ciclo de treinamento se beneficia da busca expansiva da GRPO e da otimização direcionada da DPO. Os resultados experimentais demonstram: 1) Uma otimização significativamente mais rápida e eficaz em comparação com variantes padrão da GRPO, resultando em desempenho superior; 2) Nossos modelos treinados superam a inferência direta de Video-LLMs de grande escala ajustados por instrução, produzindo CoTs longos e contextualmente consistentes em diversas tarefas de raciocínio em vídeo; e 3) Nosso modelo com uma iteração supera LMMs poderosos (por exemplo, Kimi-VL) e modelos de raciocínio longo (por exemplo, Video-R1), destacando sua eficácia e estabilidade.
English
Applying Reinforcement Learning (RL) to Video Large Language Models
(Video-LLMs) shows significant promise for complex video reasoning. However,
popular Reinforcement Fine-Tuning (RFT) methods, such as outcome-based Group
Relative Policy Optimization (GRPO), are limited by data preparation
bottlenecks (e.g., noise or high cost) and exhibit unstable improvements in the
quality of long chain-of-thoughts (CoTs) and downstream performance.To address
these limitations, we propose VerIPO, a Verifier-guided Iterative Policy
Optimization method designed to gradually improve video LLMs' capacity for
generating deep, long-term reasoning chains. The core component is
Rollout-Aware Verifier, positioned between the GRPO and Direct Preference
Optimization (DPO) training phases to form the GRPO-Verifier-DPO training loop.
This verifier leverages small LLMs as a judge to assess the reasoning logic of
rollouts, enabling the construction of high-quality contrastive data, including
reflective and contextually consistent CoTs. These curated preference samples
drive the efficient DPO stage (7x faster than GRPO), leading to marked
improvements in reasoning chain quality, especially in terms of length and
contextual consistency. This training loop benefits from GRPO's expansive
search and DPO's targeted optimization. Experimental results demonstrate: 1)
Significantly faster and more effective optimization compared to standard GRPO
variants, yielding superior performance; 2) Our trained models exceed the
direct inference of large-scale instruction-tuned Video-LLMs, producing long
and contextually consistent CoTs on diverse video reasoning tasks; and 3) Our
model with one iteration outperforms powerful LMMs (e.g., Kimi-VL) and long
reasoning models (e.g., Video-R1), highlighting its effectiveness and
stability.