VistaDPO: Optimización Directa de Preferencias Espacio-Temporales Jerárquicas en Videos para Modelos de Video a Gran Escala
VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models
April 17, 2025
Autores: Haojian Huang, Haodong Chen, Shengqiong Wu, Meng Luo, Jinlan Fu, Xinya Du, Hanwang Zhang, Hao Fei
cs.AI
Resumen
Los Modelos de Video a Gran Escala (LVMs, por sus siglas en inglés) basados en Modelos de Lenguaje a Gran Escala (LLMs) han mostrado potencial en la comprensión de videos, pero a menudo presentan problemas de desalineación con la intuición humana y alucinaciones en el video. Para abordar estos desafíos, presentamos VistaDPO, un marco novedoso para la Optimización Directa de Preferencias Espacio-Temporales Jerárquicas en Video. VistaDPO mejora la alineación de preferencias texto-video en tres niveles jerárquicos: i) Nivel de Instancia, alineando el contenido general del video con las respuestas; ii) Nivel Temporal, alineando la semántica temporal del video con las descripciones de eventos; y iii) Nivel Perceptivo, alineando objetos espaciales con tokens de lenguaje. Dada la falta de conjuntos de datos para la alineación fina de preferencias video-lenguaje, construimos VistaDPO-7k, un conjunto de datos de 7.2K pares de preguntas y respuestas anotados con respuestas seleccionadas y rechazadas, junto con información de anclaje espacio-temporal como marcas de tiempo, fotogramas clave y cuadros delimitadores. Experimentos exhaustivos en benchmarks como Alucinación en Video, Preguntas y Respuestas en Video, y tareas de desempeño en Subtitulación demuestran que VistaDPO mejora significativamente el rendimiento de los LVMs existentes, mitigando efectivamente la desalineación y las alucinaciones en video-lenguaje. El código y los datos están disponibles en https://github.com/HaroldChen19/VistaDPO.
English
Large Video Models (LVMs) built upon Large Language Models (LLMs) have shown
promise in video understanding but often suffer from misalignment with human
intuition and video hallucination issues. To address these challenges, we
introduce VistaDPO, a novel framework for Video Hierarchical Spatial-Temporal
Direct Preference Optimization. VistaDPO enhances text-video preference
alignment across three hierarchical levels: i) Instance Level, aligning overall
video content with responses; ii) Temporal Level, aligning video temporal
semantics with event descriptions; and iii) Perceptive Level, aligning spatial
objects with language tokens. Given the lack of datasets for fine-grained
video-language preference alignment, we construct VistaDPO-7k, a dataset of
7.2K QA pairs annotated with chosen and rejected responses, along with
spatial-temporal grounding information such as timestamps, keyframes, and
bounding boxes. Extensive experiments on benchmarks such as Video
Hallucination, Video QA, and Captioning performance tasks demonstrate that
VistaDPO significantly improves the performance of existing LVMs, effectively
mitigating video-language misalignment and hallucination. The code and data are
available at https://github.com/HaroldChen19/VistaDPO.Summary
AI-Generated Summary