Zelfuitlijning van grote video-taalmodellen met verfijnde, geregulariseerde voorkeursoptimalisatie
Self-alignment of Large Video Language Models with Refined Regularized Preference Optimization
April 16, 2025
Auteurs: Pritam Sarkar, Ali Etemad
cs.AI
Samenvatting
Ondanks recente vooruitgang in Grote Video Taalmodellen (LVLMs), hebben ze nog steeds moeite met fijnmazig temporeel begrip, vertonen ze hallucinaties, en maken ze vaak eenvoudige fouten bij zelfs simpele video-vraag-antwoordtaken, wat allemaal aanzienlijke uitdagingen vormt voor hun veilige en betrouwbare inzet in real-world toepassingen. Om deze beperkingen aan te pakken, stellen we een zelf-uitlijningsframework voor dat LVLMs in staat stelt te leren van hun eigen fouten. Ons voorgestelde framework verkrijgt eerst een trainingsset van geprefereerde en niet-geprefereerde antwoordparen, waarbij niet-geprefereerde antwoorden worden gegenereerd door veelvoorkomende foutpatronen te incorporeren die vaak ontstaan door onvoldoende spatio-temporeel begrip, valse correlaties tussen gelijktijdig voorkomende concepten, en overmatige afhankelijkheid van linguïstische signalen terwijl de visuele modaliteit wordt verwaarloosd, onder andere. Om de zelf-uitlijning van LVLMs met de geconstrueerde geprefereerde en niet-geprefereerde antwoordparen te vergemakkelijken, introduceren we Refined Regularized Preference Optimization (RRPO), een nieuwe voorkeursoptimalisatiemethode die gebruikmaakt van sub-sequentieniveau verfijnde beloningen en token-wise KL-regularisatie om de beperkingen van Direct Preference Optimization (DPO) aan te pakken. We tonen aan dat RRPO een preciezere uitlijning en stabielere training bereikt in vergelijking met DPO. Onze experimenten en analyses valideren de effectiviteit van onze aanpak voor diverse videotaken, waaronder video-hallucinatie, kort- en langvideo-begrip, en fijnmazig temporeel redeneren.
English
Despite recent advances in Large Video Language Models (LVLMs), they still
struggle with fine-grained temporal understanding, hallucinate, and often make
simple mistakes on even simple video question-answering tasks, all of which
pose significant challenges to their safe and reliable deployment in real-world
applications. To address these limitations, we propose a self-alignment
framework that enables LVLMs to learn from their own errors. Our proposed
framework first obtains a training set of preferred and non-preferred response
pairs, where non-preferred responses are generated by incorporating common
error patterns that often occur due to inadequate spatio-temporal
understanding, spurious correlations between co-occurring concepts, and
over-reliance on linguistic cues while neglecting the vision modality, among
others. To facilitate self-alignment of LVLMs with the constructed preferred
and non-preferred response pairs, we introduce Refined Regularized Preference
Optimization (RRPO), a novel preference optimization method that utilizes
sub-sequence-level refined rewards and token-wise KL regularization to address
the limitations of Direct Preference Optimization (DPO). We demonstrate that
RRPO achieves more precise alignment and more stable training compared to DPO.
Our experiments and analysis validate the effectiveness of our approach across
diverse video tasks, including video hallucination, short- and long-video
understanding, and fine-grained temporal reasoning.Summary
AI-Generated Summary