Autoalineación de Modelos de Lenguaje de Video a Gran Escala con Optimización de Preferencias Regularizada Refinada

Resumen

A pesar de los recientes avances en los Modelos de Lenguaje para Videos de Gran Escala (LVLMs, por sus siglas en inglés), estos aún enfrentan dificultades para comprender aspectos temporales detallados, tienden a generar alucinaciones y cometen errores simples incluso en tareas básicas de respuesta a preguntas sobre videos, lo que representa desafíos significativos para su implementación segura y confiable en aplicaciones del mundo real. Para abordar estas limitaciones, proponemos un marco de autoalineación que permite a los LVLMs aprender de sus propios errores. Nuestro marco propuesto primero obtiene un conjunto de entrenamiento de pares de respuestas preferidas y no preferidas, donde las respuestas no preferidas se generan incorporando patrones de error comunes que suelen ocurrir debido a una comprensión espacio-temporal inadecuada, correlaciones espurias entre conceptos que coocurren y una dependencia excesiva de indicadores lingüísticos mientras se descuida la modalidad visual, entre otros. Para facilitar la autoalineación de los LVLMs con los pares de respuestas preferidas y no preferidas construidos, introducimos la Optimización de Preferencias Regularizada y Refinada (RRPO, por sus siglas en inglés), un método novedoso de optimización de preferencias que utiliza recompensas refinadas a nivel de subsecuencias y regularización KL por token para abordar las limitaciones de la Optimización Directa de Preferencias (DPO, por sus siglas en inglés). Demostramos que RRPO logra una alineación más precisa y un entrenamiento más estable en comparación con DPO. Nuestros experimentos y análisis validan la efectividad de nuestro enfoque en diversas tareas de video, incluyendo la alucinación en videos, la comprensión de videos cortos y largos, y el razonamiento temporal detallado.

English

Despite recent advances in Large Video Language Models (LVLMs), they still struggle with fine-grained temporal understanding, hallucinate, and often make simple mistakes on even simple video question-answering tasks, all of which pose significant challenges to their safe and reliable deployment in real-world applications. To address these limitations, we propose a self-alignment framework that enables LVLMs to learn from their own errors. Our proposed framework first obtains a training set of preferred and non-preferred response pairs, where non-preferred responses are generated by incorporating common error patterns that often occur due to inadequate spatio-temporal understanding, spurious correlations between co-occurring concepts, and over-reliance on linguistic cues while neglecting the vision modality, among others. To facilitate self-alignment of LVLMs with the constructed preferred and non-preferred response pairs, we introduce Refined Regularized Preference Optimization (RRPO), a novel preference optimization method that utilizes sub-sequence-level refined rewards and token-wise KL regularization to address the limitations of Direct Preference Optimization (DPO). We demonstrate that RRPO achieves more precise alignment and more stable training compared to DPO. Our experiments and analysis validate the effectiveness of our approach across diverse video tasks, including video hallucination, short- and long-video understanding, and fine-grained temporal reasoning.

Autoalineación de Modelos de Lenguaje de Video a Gran Escala con Optimización de Preferencias Regularizada Refinada

Self-alignment of Large Video Language Models with Refined Regularized Preference Optimization

Resumen

Support