VistaDPO: Иерархическая пространственно-временная оптимизация прямых предпочтений для крупных видео-моделей
VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models
April 17, 2025
Авторы: Haojian Huang, Haodong Chen, Shengqiong Wu, Meng Luo, Jinlan Fu, Xinya Du, Hanwang Zhang, Hao Fei
cs.AI
Аннотация
Крупные видеомодели (LVMs), построенные на основе крупных языковых моделей (LLMs), демонстрируют потенциал в понимании видео, но часто сталкиваются с проблемами рассогласования с человеческой интуицией и галлюцинациями в видео. Для решения этих задач мы представляем VistaDPO — новую структуру для иерархической пространственно-временной оптимизации прямых предпочтений в видео. VistaDPO улучшает согласование текстово-видео предпочтений на трех иерархических уровнях: i) Уровень экземпляра — согласование общего содержания видео с ответами; ii) Временной уровень — согласование временной семантики видео с описаниями событий; и iii) Перцептивный уровень — согласование пространственных объектов с языковыми токенами. Учитывая отсутствие наборов данных для точного согласования видео-языковых предпочтений, мы создали VistaDPO-7k — набор данных из 7,2 тыс. пар вопросов и ответов, аннотированных выбранными и отклоненными ответами, а также пространственно-временной информацией, такой как временные метки, ключевые кадры и ограничивающие рамки. Многочисленные эксперименты на тестах, таких как Video Hallucination, Video QA и задачи по созданию подписей, показывают, что VistaDPO значительно улучшает производительность существующих LVMs, эффективно устраняя рассогласование и галлюцинации в видео-языковых моделях. Код и данные доступны по адресу https://github.com/HaroldChen19/VistaDPO.
English
Large Video Models (LVMs) built upon Large Language Models (LLMs) have shown
promise in video understanding but often suffer from misalignment with human
intuition and video hallucination issues. To address these challenges, we
introduce VistaDPO, a novel framework for Video Hierarchical Spatial-Temporal
Direct Preference Optimization. VistaDPO enhances text-video preference
alignment across three hierarchical levels: i) Instance Level, aligning overall
video content with responses; ii) Temporal Level, aligning video temporal
semantics with event descriptions; and iii) Perceptive Level, aligning spatial
objects with language tokens. Given the lack of datasets for fine-grained
video-language preference alignment, we construct VistaDPO-7k, a dataset of
7.2K QA pairs annotated with chosen and rejected responses, along with
spatial-temporal grounding information such as timestamps, keyframes, and
bounding boxes. Extensive experiments on benchmarks such as Video
Hallucination, Video QA, and Captioning performance tasks demonstrate that
VistaDPO significantly improves the performance of existing LVMs, effectively
mitigating video-language misalignment and hallucination. The code and data are
available at https://github.com/HaroldChen19/VistaDPO.Summary
AI-Generated Summary