VistaDPO: Hiërarchische Ruimtelijk-Temporelle Directe Voorkeursoptimalisatie voor Grote Videomodellen
VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models
April 17, 2025
Auteurs: Haojian Huang, Haodong Chen, Shengqiong Wu, Meng Luo, Jinlan Fu, Xinya Du, Hanwang Zhang, Hao Fei
cs.AI
Samenvatting
Grote Videomodelen (LVMs) gebaseerd op Grote Taalmodellen (LLMs) hebben potentie getoond in videobegrip, maar kampen vaak met een gebrek aan afstemming met menselijke intuïtie en problemen met videohallucinatie. Om deze uitdagingen aan te pakken, introduceren we VistaDPO, een nieuw raamwerk voor Video Hiërarchische Ruimtelijk-Temporele Directe Voorkeursoptimalisatie. VistaDPO verbetert de afstemming van tekst-video voorkeuren op drie hiërarchische niveaus: i) Instantieniveau, waarbij de algemene videocontent wordt afgestemd op de reacties; ii) Temporeel niveau, waarbij de temporele semantiek van de video wordt afgestemd op gebeurtenisbeschrijvingen; en iii) Perceptief niveau, waarbij ruimtelijke objecten worden afgestemd op taaltokens. Gezien het gebrek aan datasets voor gedetailleerde video-taal voorkeursafstemming, hebben we VistaDPO-7k geconstrueerd, een dataset van 7,2K QA-paren geannoteerd met gekozen en afgewezen reacties, samen met ruimtelijk-temporele grondingsinformatie zoals tijdstempels, keyframes en begrenzingsvakken. Uitgebreide experimenten op benchmarks zoals Video Hallucinatie, Video QA en Captioning-prestatietaken tonen aan dat VistaDPO de prestaties van bestaande LVMs aanzienlijk verbetert en effectief video-taal misalignement en hallucinatie vermindert. De code en data zijn beschikbaar op https://github.com/HaroldChen19/VistaDPO.
English
Large Video Models (LVMs) built upon Large Language Models (LLMs) have shown
promise in video understanding but often suffer from misalignment with human
intuition and video hallucination issues. To address these challenges, we
introduce VistaDPO, a novel framework for Video Hierarchical Spatial-Temporal
Direct Preference Optimization. VistaDPO enhances text-video preference
alignment across three hierarchical levels: i) Instance Level, aligning overall
video content with responses; ii) Temporal Level, aligning video temporal
semantics with event descriptions; and iii) Perceptive Level, aligning spatial
objects with language tokens. Given the lack of datasets for fine-grained
video-language preference alignment, we construct VistaDPO-7k, a dataset of
7.2K QA pairs annotated with chosen and rejected responses, along with
spatial-temporal grounding information such as timestamps, keyframes, and
bounding boxes. Extensive experiments on benchmarks such as Video
Hallucination, Video QA, and Captioning performance tasks demonstrate that
VistaDPO significantly improves the performance of existing LVMs, effectively
mitigating video-language misalignment and hallucination. The code and data are
available at https://github.com/HaroldChen19/VistaDPO.Summary
AI-Generated Summary