ChatPaper.aiChatPaper

Autoalinhamento de Grandes Modelos de Linguagem de Vídeo com Otimização de Preferência Regularizada Refinada

Self-alignment of Large Video Language Models with Refined Regularized Preference Optimization

April 16, 2025
Autores: Pritam Sarkar, Ali Etemad
cs.AI

Resumo

Apesar dos avanços recentes em Modelos de Linguagem para Vídeos de Grande Escala (LVLMs), eles ainda enfrentam dificuldades com a compreensão temporal refinada, apresentam alucinações e frequentemente cometem erros simples em tarefas de questionamento e resposta sobre vídeos, o que representa desafios significativos para sua implantação segura e confiável em aplicações do mundo real. Para abordar essas limitações, propomos um framework de autoalinhamento que permite que os LVLMs aprendam com seus próprios erros. Nosso framework proposto primeiro obtém um conjunto de treinamento de pares de respostas preferidas e não preferidas, onde as respostas não preferidas são geradas incorporando padrões comuns de erros que frequentemente ocorrem devido à compreensão espaço-temporal inadequada, correlações espúrias entre conceitos co-ocorrentes e dependência excessiva de pistas linguísticas, negligenciando a modalidade visual, entre outros. Para facilitar o autoalinhamento dos LVLMs com os pares de respostas preferidas e não preferidas construídos, introduzimos a Otimização de Preferência Regularizada Refinada (RRPO), um método inovador de otimização de preferência que utiliza recompensas refinadas em nível de sub-sequência e regularização KL token-wise para abordar as limitações da Otimização Direta de Preferência (DPO). Demonstramos que o RRPO alcança um alinhamento mais preciso e um treinamento mais estável em comparação com o DPO. Nossos experimentos e análises validam a eficácia de nossa abordagem em diversas tarefas de vídeo, incluindo alucinação em vídeos, compreensão de vídeos curtos e longos e raciocínio temporal refinado.
English
Despite recent advances in Large Video Language Models (LVLMs), they still struggle with fine-grained temporal understanding, hallucinate, and often make simple mistakes on even simple video question-answering tasks, all of which pose significant challenges to their safe and reliable deployment in real-world applications. To address these limitations, we propose a self-alignment framework that enables LVLMs to learn from their own errors. Our proposed framework first obtains a training set of preferred and non-preferred response pairs, where non-preferred responses are generated by incorporating common error patterns that often occur due to inadequate spatio-temporal understanding, spurious correlations between co-occurring concepts, and over-reliance on linguistic cues while neglecting the vision modality, among others. To facilitate self-alignment of LVLMs with the constructed preferred and non-preferred response pairs, we introduce Refined Regularized Preference Optimization (RRPO), a novel preference optimization method that utilizes sub-sequence-level refined rewards and token-wise KL regularization to address the limitations of Direct Preference Optimization (DPO). We demonstrate that RRPO achieves more precise alignment and more stable training compared to DPO. Our experiments and analysis validate the effectiveness of our approach across diverse video tasks, including video hallucination, short- and long-video understanding, and fine-grained temporal reasoning.

Summary

AI-Generated Summary

PDF42April 21, 2025