ChatPaper.aiChatPaper

VistaDPO: Ottimizzazione Diretta delle Preferenze Spazio-Temporali Gerarchiche per Video nei Modelli Video di Grande Scala

VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models

April 17, 2025
Autori: Haojian Huang, Haodong Chen, Shengqiong Wu, Meng Luo, Jinlan Fu, Xinya Du, Hanwang Zhang, Hao Fei
cs.AI

Abstract

I Large Video Models (LVMs) basati su Large Language Models (LLMs) hanno mostrato potenziale nella comprensione video, ma spesso soffrono di disallineamento con l'intuizione umana e problemi di allucinazione video. Per affrontare queste sfide, introduciamo VistaDPO, un nuovo framework per l'ottimizzazione diretta delle preferenze spaziali-temporali gerarchiche nei video. VistaDPO migliora l'allineamento delle preferenze testo-video su tre livelli gerarchici: i) Livello Istanza, allineando il contenuto complessivo del video con le risposte; ii) Livello Temporale, allineando la semantica temporale del video con le descrizioni degli eventi; e iii) Livello Percettivo, allineando gli oggetti spaziali con i token linguistici. Considerando la mancanza di dataset per l'allineamento fine delle preferenze video-linguaggio, abbiamo costruito VistaDPO-7k, un dataset di 7.2K coppie di domande e risposte annotate con risposte scelte e rifiutate, insieme a informazioni di ancoraggio spaziale-temporale come timestamp, fotogrammi chiave e bounding box. Esperimenti estesi su benchmark come Allucinazione Video, Video QA e compiti di prestazione di Captioning dimostrano che VistaDPO migliora significativamente le prestazioni degli LVMs esistenti, mitigando efficacemente il disallineamento video-linguaggio e l'allucinazione. Il codice e i dati sono disponibili su https://github.com/HaroldChen19/VistaDPO.
English
Large Video Models (LVMs) built upon Large Language Models (LLMs) have shown promise in video understanding but often suffer from misalignment with human intuition and video hallucination issues. To address these challenges, we introduce VistaDPO, a novel framework for Video Hierarchical Spatial-Temporal Direct Preference Optimization. VistaDPO enhances text-video preference alignment across three hierarchical levels: i) Instance Level, aligning overall video content with responses; ii) Temporal Level, aligning video temporal semantics with event descriptions; and iii) Perceptive Level, aligning spatial objects with language tokens. Given the lack of datasets for fine-grained video-language preference alignment, we construct VistaDPO-7k, a dataset of 7.2K QA pairs annotated with chosen and rejected responses, along with spatial-temporal grounding information such as timestamps, keyframes, and bounding boxes. Extensive experiments on benchmarks such as Video Hallucination, Video QA, and Captioning performance tasks demonstrate that VistaDPO significantly improves the performance of existing LVMs, effectively mitigating video-language misalignment and hallucination. The code and data are available at https://github.com/HaroldChen19/VistaDPO.

Summary

AI-Generated Summary

PDF214April 18, 2025