VistaDPO : Optimisation hiérarchique spatio-temporelle des préférences directes pour les modèles vidéo de grande échelle
VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models
April 17, 2025
Auteurs: Haojian Huang, Haodong Chen, Shengqiong Wu, Meng Luo, Jinlan Fu, Xinya Du, Hanwang Zhang, Hao Fei
cs.AI
Résumé
Les modèles de grande taille pour la vidéo (Large Video Models, LVMs) basés sur les modèles de langage de grande taille (Large Language Models, LLMs) ont montré des résultats prometteurs dans la compréhension vidéo, mais souffrent souvent d'un désalignement avec l'intuition humaine et de problèmes d'hallucination vidéo. Pour relever ces défis, nous introduisons VistaDPO, un nouveau cadre pour l'optimisation directe des préférences spatiales-temporelles hiérarchiques dans la vidéo (Video Hierarchical Spatial-Temporal Direct Preference Optimization). VistaDPO améliore l'alignement des préférences texte-vidéo à trois niveaux hiérarchiques : i) Niveau d'instance, alignant le contenu global de la vidéo avec les réponses ; ii) Niveau temporel, alignant la sémantique temporelle de la vidéo avec les descriptions d'événements ; et iii) Niveau perceptif, alignant les objets spatiaux avec les tokens de langage. Étant donné l'absence de jeux de données pour l'alignement fin des préférences vidéo-langage, nous avons construit VistaDPO-7k, un ensemble de 7,2K paires de questions-réponses annotées avec des réponses choisies et rejetées, ainsi que des informations de localisation spatiale-temporelle telles que des timestamps, des images clés et des cadres de délimitation. Des expériences approfondies sur des benchmarks tels que l'hallucination vidéo, les questions-réponses sur la vidéo et les tâches de performance en légendage démontrent que VistaDPO améliore significativement les performances des LVMs existants, atténuant efficacement le désalignement vidéo-langage et l'hallucination. Le code et les données sont disponibles à l'adresse https://github.com/HaroldChen19/VistaDPO.
English
Large Video Models (LVMs) built upon Large Language Models (LLMs) have shown
promise in video understanding but often suffer from misalignment with human
intuition and video hallucination issues. To address these challenges, we
introduce VistaDPO, a novel framework for Video Hierarchical Spatial-Temporal
Direct Preference Optimization. VistaDPO enhances text-video preference
alignment across three hierarchical levels: i) Instance Level, aligning overall
video content with responses; ii) Temporal Level, aligning video temporal
semantics with event descriptions; and iii) Perceptive Level, aligning spatial
objects with language tokens. Given the lack of datasets for fine-grained
video-language preference alignment, we construct VistaDPO-7k, a dataset of
7.2K QA pairs annotated with chosen and rejected responses, along with
spatial-temporal grounding information such as timestamps, keyframes, and
bounding boxes. Extensive experiments on benchmarks such as Video
Hallucination, Video QA, and Captioning performance tasks demonstrate that
VistaDPO significantly improves the performance of existing LVMs, effectively
mitigating video-language misalignment and hallucination. The code and data are
available at https://github.com/HaroldChen19/VistaDPO.