ChatPaper.aiChatPaper

Auto-alignement des grands modèles de langage vidéo par optimisation régularisée des préférences raffinées

Self-alignment of Large Video Language Models with Refined Regularized Preference Optimization

April 16, 2025
Auteurs: Pritam Sarkar, Ali Etemad
cs.AI

Résumé

Malgré les récents progrès des grands modèles de langage vidéo (LVLMs), ceux-ci peinent encore à comprendre les nuances temporelles fines, produisent des hallucinations et commettent souvent des erreurs simples, même sur des tâches de question-réponse vidéo basiques. Ces limitations posent des défis majeurs à leur déploiement sûr et fiable dans des applications réelles. Pour pallier ces lacunes, nous proposons un cadre d'auto-alignement permettant aux LVLMs d'apprendre de leurs propres erreurs. Notre cadre commence par obtenir un ensemble d'entraînement composé de paires de réponses préférées et non préférées, où les réponses non préférées sont générées en intégrant des schémas d'erreurs courants, souvent dus à une compréhension spatio-temporelle inadéquate, à des corrélations fallacieuses entre concepts co-occurrents, et à une dépendance excessive aux indices linguistiques au détriment de la modalité visuelle, entre autres. Pour faciliter l'auto-alignement des LVLMs avec ces paires de réponses construites, nous introduisons l'Optimisation Régularisée des Préférences Raffinée (RRPO), une nouvelle méthode d'optimisation des préférences qui utilise des récompenses raffinées au niveau des sous-séquences et une régularisation KL token par token pour surmonter les limites de l'Optimisation Directe des Préférences (DPO). Nous montrons que RRPO permet un alignement plus précis et un entraînement plus stable par rapport à DPO. Nos expériences et analyses valident l'efficacité de notre approche sur diverses tâches vidéo, incluant les hallucinations vidéo, la compréhension de vidéos courtes et longues, et le raisonnement temporel fin.
English
Despite recent advances in Large Video Language Models (LVLMs), they still struggle with fine-grained temporal understanding, hallucinate, and often make simple mistakes on even simple video question-answering tasks, all of which pose significant challenges to their safe and reliable deployment in real-world applications. To address these limitations, we propose a self-alignment framework that enables LVLMs to learn from their own errors. Our proposed framework first obtains a training set of preferred and non-preferred response pairs, where non-preferred responses are generated by incorporating common error patterns that often occur due to inadequate spatio-temporal understanding, spurious correlations between co-occurring concepts, and over-reliance on linguistic cues while neglecting the vision modality, among others. To facilitate self-alignment of LVLMs with the constructed preferred and non-preferred response pairs, we introduce Refined Regularized Preference Optimization (RRPO), a novel preference optimization method that utilizes sub-sequence-level refined rewards and token-wise KL regularization to address the limitations of Direct Preference Optimization (DPO). We demonstrate that RRPO achieves more precise alignment and more stable training compared to DPO. Our experiments and analysis validate the effectiveness of our approach across diverse video tasks, including video hallucination, short- and long-video understanding, and fine-grained temporal reasoning.

Summary

AI-Generated Summary

PDF42April 21, 2025