VerIPO: Cultivando el razonamiento prolongado en Video-LLMs mediante la Optimización Iterativa de Políticas Guiada por Verificador
VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization
May 25, 2025
Autores: Yunxin Li, Xinyu Chen, Zitao Li, Zhenyu Liu, Longyue Wang, Wenhan Luo, Baotian Hu, Min Zhang
cs.AI
Resumen
La aplicación del Aprendizaje por Refuerzo (RL) a los Modelos de Lenguaje de Gran Escala para Video (Video-LLMs) muestra un potencial significativo para el razonamiento complejo en video. Sin embargo, los métodos populares de Ajuste Fino por Refuerzo (RFT), como la Optimización de Política Relativa de Grupo basada en Resultados (GRPO), están limitados por cuellos de botella en la preparación de datos (por ejemplo, ruido o alto costo) y exhiben mejoras inestables en la calidad de las cadenas de pensamiento largas (CoTs) y en el rendimiento en tareas posteriores. Para abordar estas limitaciones, proponemos VerIPO, un método de Optimización de Política Iterativa Guiada por Verificador diseñado para mejorar gradualmente la capacidad de los Video-LLMs para generar cadenas de razonamiento profundas y a largo plazo. El componente central es el Verificador Consciente de Rollout, posicionado entre las fases de entrenamiento GRPO y la Optimización de Preferencias Directas (DPO) para formar el bucle de entrenamiento GRPO-Verificador-DPO. Este verificador aprovecha modelos de lenguaje pequeños como jueces para evaluar la lógica de razonamiento de los rollouts, permitiendo la construcción de datos contrastivos de alta calidad, incluyendo CoTs reflexivas y contextualmente consistentes. Estas muestras de preferencia curadas impulsan la etapa eficiente de DPO (7 veces más rápida que GRPO), lo que conduce a mejoras notables en la calidad de las cadenas de razonamiento, especialmente en términos de longitud y consistencia contextual. Este bucle de entrenamiento se beneficia de la búsqueda expansiva de GRPO y la optimización dirigida de DPO. Los resultados experimentales demuestran: 1) Una optimización significativamente más rápida y efectiva en comparación con las variantes estándar de GRPO, obteniendo un rendimiento superior; 2) Nuestros modelos entrenados superan la inferencia directa de Video-LLMs de gran escala ajustados por instrucciones, produciendo CoTs largas y contextualmente consistentes en diversas tareas de razonamiento en video; y 3) Nuestro modelo con una iteración supera a potentes LMMs (por ejemplo, Kimi-VL) y modelos de razonamiento largo (por ejemplo, Video-R1), destacando su efectividad y estabilidad.
English
Applying Reinforcement Learning (RL) to Video Large Language Models
(Video-LLMs) shows significant promise for complex video reasoning. However,
popular Reinforcement Fine-Tuning (RFT) methods, such as outcome-based Group
Relative Policy Optimization (GRPO), are limited by data preparation
bottlenecks (e.g., noise or high cost) and exhibit unstable improvements in the
quality of long chain-of-thoughts (CoTs) and downstream performance.To address
these limitations, we propose VerIPO, a Verifier-guided Iterative Policy
Optimization method designed to gradually improve video LLMs' capacity for
generating deep, long-term reasoning chains. The core component is
Rollout-Aware Verifier, positioned between the GRPO and Direct Preference
Optimization (DPO) training phases to form the GRPO-Verifier-DPO training loop.
This verifier leverages small LLMs as a judge to assess the reasoning logic of
rollouts, enabling the construction of high-quality contrastive data, including
reflective and contextually consistent CoTs. These curated preference samples
drive the efficient DPO stage (7x faster than GRPO), leading to marked
improvements in reasoning chain quality, especially in terms of length and
contextual consistency. This training loop benefits from GRPO's expansive
search and DPO's targeted optimization. Experimental results demonstrate: 1)
Significantly faster and more effective optimization compared to standard GRPO
variants, yielding superior performance; 2) Our trained models exceed the
direct inference of large-scale instruction-tuned Video-LLMs, producing long
and contextually consistent CoTs on diverse video reasoning tasks; and 3) Our
model with one iteration outperforms powerful LMMs (e.g., Kimi-VL) and long
reasoning models (e.g., Video-R1), highlighting its effectiveness and
stability.Summary
AI-Generated Summary