VistaDPO: Otimização Hierárquica Espacial-Temporal de Preferências Diretas em Vídeo para Modelos de Vídeo de Grande Escala
VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models
April 17, 2025
Autores: Haojian Huang, Haodong Chen, Shengqiong Wu, Meng Luo, Jinlan Fu, Xinya Du, Hanwang Zhang, Hao Fei
cs.AI
Resumo
Grandes Modelos de Vídeo (LVMs) construídos sobre Grandes Modelos de Linguagem (LLMs) têm mostrado potencial na compreensão de vídeos, mas frequentemente sofrem com desalinhamentos em relação à intuição humana e problemas de alucinação em vídeos. Para enfrentar esses desafios, introduzimos o VistaDPO, uma nova estrutura para Otimização Direta de Preferência Hierárquica Espaço-Temporal em Vídeos. O VistaDPO melhora o alinhamento de preferências texto-vídeo em três níveis hierárquicos: i) Nível de Instância, alinhando o conteúdo geral do vídeo com as respostas; ii) Nível Temporal, alinhando a semântica temporal do vídeo com descrições de eventos; e iii) Nível Perceptivo, alinhando objetos espaciais com tokens de linguagem. Dada a escassez de conjuntos de dados para alinhamento fino de preferências vídeo-linguagem, construímos o VistaDPO-7k, um conjunto de dados com 7,2 mil pares de perguntas e respostas anotados com respostas escolhidas e rejeitadas, juntamente com informações de ancoragem espaço-temporal, como timestamps, keyframes e bounding boxes. Experimentos extensivos em benchmarks como Alucinação em Vídeo, QA de Vídeo e tarefas de desempenho em Legendagem demonstram que o VistaDPO melhora significativamente o desempenho dos LVMs existentes, mitigando efetivamente o desalinhamento vídeo-linguagem e a alucinação. O código e os dados estão disponíveis em https://github.com/HaroldChen19/VistaDPO.
English
Large Video Models (LVMs) built upon Large Language Models (LLMs) have shown
promise in video understanding but often suffer from misalignment with human
intuition and video hallucination issues. To address these challenges, we
introduce VistaDPO, a novel framework for Video Hierarchical Spatial-Temporal
Direct Preference Optimization. VistaDPO enhances text-video preference
alignment across three hierarchical levels: i) Instance Level, aligning overall
video content with responses; ii) Temporal Level, aligning video temporal
semantics with event descriptions; and iii) Perceptive Level, aligning spatial
objects with language tokens. Given the lack of datasets for fine-grained
video-language preference alignment, we construct VistaDPO-7k, a dataset of
7.2K QA pairs annotated with chosen and rejected responses, along with
spatial-temporal grounding information such as timestamps, keyframes, and
bounding boxes. Extensive experiments on benchmarks such as Video
Hallucination, Video QA, and Captioning performance tasks demonstrate that
VistaDPO significantly improves the performance of existing LVMs, effectively
mitigating video-language misalignment and hallucination. The code and data are
available at https://github.com/HaroldChen19/VistaDPO.Summary
AI-Generated Summary