VistaDPO: Video-Hierarchische Raum-Zeit-Direktpräferenzoptimierung für große Videomodelle
VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models
April 17, 2025
Autoren: Haojian Huang, Haodong Chen, Shengqiong Wu, Meng Luo, Jinlan Fu, Xinya Du, Hanwang Zhang, Hao Fei
cs.AI
Zusammenfassung
Große Videomodelle (Large Video Models, LVMs), die auf großen Sprachmodellen (Large Language Models, LLMs) basieren, haben vielversprechende Ergebnisse in der Videoverständnis gezeigt, leiden jedoch häufig unter Fehlausrichtungen mit der menschlichen Intuition und Problemen wie Video-Halluzinationen. Um diese Herausforderungen zu bewältigen, stellen wir VistaDPO vor, ein neuartiges Framework für die hierarchische räumlich-zeitliche Direkte Präferenzoptimierung (Video Hierarchical Spatial-Temporal Direct Preference Optimization). VistaDPO verbessert die Text-Video-Präferenzausrichtung auf drei hierarchischen Ebenen: i) Instanzebene, die den Gesamtinhalt des Videos mit den Antworten in Einklang bringt; ii) zeitliche Ebene, die die zeitliche Semantik des Videos mit Ereignisbeschreibungen abstimmt; und iii) Wahrnehmungsebene, die räumliche Objekte mit Sprach-Tokens ausrichtet. Angesichts des Mangels an Datensätzen für die fein abgestimmte Video-Sprach-Präferenzausrichtung haben wir VistaDPO-7k erstellt, einen Datensatz mit 7.2K Frage-Antwort-Paaren, die mit ausgewählten und abgelehnten Antworten sowie räumlich-zeitlichen Verankerungsinformationen wie Zeitstempeln, Keyframes und Begrenzungsrahmen annotiert sind. Umfangreiche Experimente auf Benchmarks wie Video-Halluzination, Video-Fragenbeantwortung (Video QA) und Beschreibungsleistungsaufgaben (Captioning) zeigen, dass VistaDPO die Leistung bestehender LVMs signifikant verbessert und effektiv Fehlausrichtungen zwischen Video und Sprache sowie Halluzinationen reduziert. Der Code und die Daten sind unter https://github.com/HaroldChen19/VistaDPO verfügbar.
English
Large Video Models (LVMs) built upon Large Language Models (LLMs) have shown
promise in video understanding but often suffer from misalignment with human
intuition and video hallucination issues. To address these challenges, we
introduce VistaDPO, a novel framework for Video Hierarchical Spatial-Temporal
Direct Preference Optimization. VistaDPO enhances text-video preference
alignment across three hierarchical levels: i) Instance Level, aligning overall
video content with responses; ii) Temporal Level, aligning video temporal
semantics with event descriptions; and iii) Perceptive Level, aligning spatial
objects with language tokens. Given the lack of datasets for fine-grained
video-language preference alignment, we construct VistaDPO-7k, a dataset of
7.2K QA pairs annotated with chosen and rejected responses, along with
spatial-temporal grounding information such as timestamps, keyframes, and
bounding boxes. Extensive experiments on benchmarks such as Video
Hallucination, Video QA, and Captioning performance tasks demonstrate that
VistaDPO significantly improves the performance of existing LVMs, effectively
mitigating video-language misalignment and hallucination. The code and data are
available at https://github.com/HaroldChen19/VistaDPO.Summary
AI-Generated Summary