Autoalineación de Modelos de Lenguaje de Video a Gran Escala con Optimización de Preferencias Regularizada Refinada
Self-alignment of Large Video Language Models with Refined Regularized Preference Optimization
April 16, 2025
Autores: Pritam Sarkar, Ali Etemad
cs.AI
Resumen
A pesar de los recientes avances en los Modelos de Lenguaje para Videos de Gran Escala (LVLMs, por sus siglas en inglés), estos aún enfrentan dificultades para comprender aspectos temporales detallados, tienden a generar alucinaciones y cometen errores simples incluso en tareas básicas de respuesta a preguntas sobre videos, lo que representa desafíos significativos para su implementación segura y confiable en aplicaciones del mundo real. Para abordar estas limitaciones, proponemos un marco de autoalineación que permite a los LVLMs aprender de sus propios errores. Nuestro marco propuesto primero obtiene un conjunto de entrenamiento de pares de respuestas preferidas y no preferidas, donde las respuestas no preferidas se generan incorporando patrones de error comunes que suelen ocurrir debido a una comprensión espacio-temporal inadecuada, correlaciones espurias entre conceptos que coocurren y una dependencia excesiva de indicadores lingüísticos mientras se descuida la modalidad visual, entre otros. Para facilitar la autoalineación de los LVLMs con los pares de respuestas preferidas y no preferidas construidos, introducimos la Optimización de Preferencias Regularizada y Refinada (RRPO, por sus siglas en inglés), un método novedoso de optimización de preferencias que utiliza recompensas refinadas a nivel de subsecuencias y regularización KL por token para abordar las limitaciones de la Optimización Directa de Preferencias (DPO, por sus siglas en inglés). Demostramos que RRPO logra una alineación más precisa y un entrenamiento más estable en comparación con DPO. Nuestros experimentos y análisis validan la efectividad de nuestro enfoque en diversas tareas de video, incluyendo la alucinación en videos, la comprensión de videos cortos y largos, y el razonamiento temporal detallado.
English
Despite recent advances in Large Video Language Models (LVLMs), they still
struggle with fine-grained temporal understanding, hallucinate, and often make
simple mistakes on even simple video question-answering tasks, all of which
pose significant challenges to their safe and reliable deployment in real-world
applications. To address these limitations, we propose a self-alignment
framework that enables LVLMs to learn from their own errors. Our proposed
framework first obtains a training set of preferred and non-preferred response
pairs, where non-preferred responses are generated by incorporating common
error patterns that often occur due to inadequate spatio-temporal
understanding, spurious correlations between co-occurring concepts, and
over-reliance on linguistic cues while neglecting the vision modality, among
others. To facilitate self-alignment of LVLMs with the constructed preferred
and non-preferred response pairs, we introduce Refined Regularized Preference
Optimization (RRPO), a novel preference optimization method that utilizes
sub-sequence-level refined rewards and token-wise KL regularization to address
the limitations of Direct Preference Optimization (DPO). We demonstrate that
RRPO achieves more precise alignment and more stable training compared to DPO.
Our experiments and analysis validate the effectiveness of our approach across
diverse video tasks, including video hallucination, short- and long-video
understanding, and fine-grained temporal reasoning.Summary
AI-Generated Summary