VideoLights: Refinamiento de Características y Transformador de Alineación Cruzada para la Detección Conjunta de Momentos Destacados en Video y Recuperación de Momentos
VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval
December 2, 2024
Autores: Dhiman Paul, Md Rizwan Parvez, Nabeel Mohammed, Shafin Rahman
cs.AI
Resumen
La Detección de Destacados de Video y la Recuperación de Momentos (HD/MR) son esenciales en el análisis de video. Los modelos recientes de transformadores de predicción conjunta a menudo pasan por alto la dinámica entre tareas y la alineación y refinamiento de video-texto. Además, la mayoría de los modelos suelen utilizar mecanismos de atención limitados y unidireccionales, lo que resulta en representaciones débilmente integradas y un rendimiento subóptimo en la captura de la interdependencia entre las modalidades de video y texto. Aunque los modelos de lenguaje grande y visión-lenguaje (LLM/LVLMs) han ganado prominencia en varios dominios, su aplicación en este campo sigue siendo relativamente poco explorada. Aquí proponemos VideoLights, un nuevo marco HD/MR que aborda estas limitaciones a través de (i) módulos de Proyección Convolucional y Refinamiento de Características con una pérdida de alineación para una mejor alineación de características de video-texto, (ii) una red de Fusión Cruzada Bi-Direccional para representaciones de clips con conciencia de consulta fuertemente acopladas, y (iii) un mecanismo de retroalimentación conjunta unidireccional que mejora ambas tareas a través de la correlación. Además, (iv) introducimos pérdidas duras positivas/negativas para penalización de errores adaptativa y aprendizaje mejorado, y (v) aprovechamos LVLMs como BLIP-2 para una integración de características multimodales mejorada y un preentrenamiento inteligente utilizando datos sintéticos generados a partir de LVLMs. Experimentos exhaustivos en los benchmarks QVHighlights, TVSum y Charades-STA demuestran un rendimiento de vanguardia. Los códigos y modelos están disponibles en https://github.com/dpaul06/VideoLights.
English
Video Highlight Detection and Moment Retrieval (HD/MR) are essential in video
analysis. Recent joint prediction transformer models often overlook their
cross-task dynamics and video-text alignment and refinement. Moreover, most
models typically use limited, uni-directional attention mechanisms, resulting
in weakly integrated representations and suboptimal performance in capturing
the interdependence between video and text modalities. Although large-language
and vision-language models (LLM/LVLMs) have gained prominence across various
domains, their application in this field remains relatively underexplored. Here
we propose VideoLights, a novel HD/MR framework addressing these limitations
through (i) Convolutional Projection and Feature Refinement modules with an
alignment loss for better video-text feature alignment, (ii) Bi-Directional
Cross-Modal Fusion network for strongly coupled query-aware clip
representations, and (iii) Uni-directional joint-task feedback mechanism
enhancing both tasks through correlation. In addition, (iv) we introduce hard
positive/negative losses for adaptive error penalization and improved learning,
and (v) leverage LVLMs like BLIP-2 for enhanced multimodal feature integration
and intelligent pretraining using synthetic data generated from LVLMs.
Comprehensive experiments on QVHighlights, TVSum, and Charades-STA benchmarks
demonstrate state-of-the-art performance. Codes and models are available at
https://github.com/dpaul06/VideoLights .Summary
AI-Generated Summary