Selbstausrichtung großer Video-Sprachmodelle mit verfeinertem regularisiertem Präferenzoptimierungsverfahren
Self-alignment of Large Video Language Models with Refined Regularized Preference Optimization
April 16, 2025
Autoren: Pritam Sarkar, Ali Etemad
cs.AI
Zusammenfassung
Trotz jüngster Fortschritte bei Large Video Language Models (LVLMs) haben diese immer noch Schwierigkeiten mit feinkörnigem zeitlichem Verständnis, neigen zu Halluzinationen und machen oft einfache Fehler bei selbst simplen Video-Frage-Antwort-Aufgaben. Diese Probleme stellen erhebliche Herausforderungen für den sicheren und zuverlässigen Einsatz in realen Anwendungen dar. Um diese Einschränkungen zu überwinden, schlagen wir ein Selbstanpassungs-Framework vor, das LVLMs ermöglicht, aus ihren eigenen Fehlern zu lernen. Unser vorgeschlagenes Framework erstellt zunächst einen Trainingsdatensatz aus bevorzugten und nicht bevorzugten Antwortpaaren, wobei die nicht bevorzugten Antworten durch die Einbindung häufiger Fehlermuster generiert werden, die oft aufgrund unzureichenden räumlich-zeitlichen Verständnisses, falscher Korrelationen zwischen gleichzeitig auftretenden Konzepten und einer übermäßigen Abhängigkeit von linguistischen Hinweisen bei Vernachlässigung der visuellen Modalität entstehen. Um die Selbstanpassung der LVLMs an die konstruierten bevorzugten und nicht bevorzugten Antwortpaare zu erleichtern, führen wir Refined Regularized Preference Optimization (RRPO) ein, eine neuartige Präferenzoptimierungsmethode, die verfeinerte Belohnungen auf Untersequenzebene und tokenweise KL-Regularisierung nutzt, um die Grenzen von Direct Preference Optimization (DPO) zu überwinden. Wir zeigen, dass RRPO im Vergleich zu DPO eine präzisere Anpassung und stabileres Training erreicht. Unsere Experimente und Analysen bestätigen die Wirksamkeit unseres Ansatzes über verschiedene Videoaufgaben hinweg, einschließlich Video-Halluzinationen, Kurz- und Langzeit-Video-Verständnis sowie feinkörniger zeitlicher Argumentation.
English
Despite recent advances in Large Video Language Models (LVLMs), they still
struggle with fine-grained temporal understanding, hallucinate, and often make
simple mistakes on even simple video question-answering tasks, all of which
pose significant challenges to their safe and reliable deployment in real-world
applications. To address these limitations, we propose a self-alignment
framework that enables LVLMs to learn from their own errors. Our proposed
framework first obtains a training set of preferred and non-preferred response
pairs, where non-preferred responses are generated by incorporating common
error patterns that often occur due to inadequate spatio-temporal
understanding, spurious correlations between co-occurring concepts, and
over-reliance on linguistic cues while neglecting the vision modality, among
others. To facilitate self-alignment of LVLMs with the constructed preferred
and non-preferred response pairs, we introduce Refined Regularized Preference
Optimization (RRPO), a novel preference optimization method that utilizes
sub-sequence-level refined rewards and token-wise KL regularization to address
the limitations of Direct Preference Optimization (DPO). We demonstrate that
RRPO achieves more precise alignment and more stable training compared to DPO.
Our experiments and analysis validate the effectiveness of our approach across
diverse video tasks, including video hallucination, short- and long-video
understanding, and fine-grained temporal reasoning.Summary
AI-Generated Summary