ChatPaper.aiChatPaper

Auto-allineamento di grandi modelli linguistici video con ottimizzazione regolarizzata delle preferenze raffinata

Self-alignment of Large Video Language Models with Refined Regularized Preference Optimization

April 16, 2025
Autori: Pritam Sarkar, Ali Etemad
cs.AI

Abstract

Nonostante i recenti progressi nei Modelli Linguistici per Video di Grande Scala (LVLM), essi continuano a lottare con la comprensione temporale fine, generano allucinazioni e spesso commettono errori semplici anche in compiti di risposta a domande su video di base, tutti aspetti che rappresentano sfide significative per il loro impiego sicuro e affidabile in applicazioni del mondo reale. Per affrontare queste limitazioni, proponiamo un framework di auto-allineamento che consente agli LVLM di apprendere dai propri errori. Il nostro framework proposto ottiene inizialmente un insieme di addestramento di coppie di risposte preferite e non preferite, dove le risposte non preferite sono generate incorporando modelli di errore comuni che spesso si verificano a causa di una comprensione spazio-temporale inadeguata, correlazioni spurie tra concetti co-occorrenti e un'eccessiva dipendenza da indizi linguistici trascurando la modalità visiva, tra gli altri. Per facilitare l'auto-allineamento degli LVLM con le coppie di risposte preferite e non preferite costruite, introduciamo l'Optimizzazione delle Preferenze Regolarizzata e Raffinata (RRPO), un nuovo metodo di ottimizzazione delle preferenze che utilizza ricompense raffinate a livello di sotto-sequenza e una regolarizzazione KL token-wise per affrontare le limitazioni dell'Optimizzazione Diretta delle Preferenze (DPO). Dimostriamo che RRPO raggiunge un allineamento più preciso e un addestramento più stabile rispetto a DPO. I nostri esperimenti e analisi convalidano l'efficacia del nostro approccio in una varietà di compiti video, tra cui allucinazioni video, comprensione di video brevi e lunghi e ragionamento temporale fine.
English
Despite recent advances in Large Video Language Models (LVLMs), they still struggle with fine-grained temporal understanding, hallucinate, and often make simple mistakes on even simple video question-answering tasks, all of which pose significant challenges to their safe and reliable deployment in real-world applications. To address these limitations, we propose a self-alignment framework that enables LVLMs to learn from their own errors. Our proposed framework first obtains a training set of preferred and non-preferred response pairs, where non-preferred responses are generated by incorporating common error patterns that often occur due to inadequate spatio-temporal understanding, spurious correlations between co-occurring concepts, and over-reliance on linguistic cues while neglecting the vision modality, among others. To facilitate self-alignment of LVLMs with the constructed preferred and non-preferred response pairs, we introduce Refined Regularized Preference Optimization (RRPO), a novel preference optimization method that utilizes sub-sequence-level refined rewards and token-wise KL regularization to address the limitations of Direct Preference Optimization (DPO). We demonstrate that RRPO achieves more precise alignment and more stable training compared to DPO. Our experiments and analysis validate the effectiveness of our approach across diverse video tasks, including video hallucination, short- and long-video understanding, and fine-grained temporal reasoning.

Summary

AI-Generated Summary

PDF42April 21, 2025