VideoLights: Refinamiento de Características y Transformador de Alineación Cruzada para la Detección Conjunta de Momentos Destacados en Video y Recuperación de Momentos

Resumen

La Detección de Destacados de Video y la Recuperación de Momentos (HD/MR) son esenciales en el análisis de video. Los modelos recientes de transformadores de predicción conjunta a menudo pasan por alto la dinámica entre tareas y la alineación y refinamiento de video-texto. Además, la mayoría de los modelos suelen utilizar mecanismos de atención limitados y unidireccionales, lo que resulta en representaciones débilmente integradas y un rendimiento subóptimo en la captura de la interdependencia entre las modalidades de video y texto. Aunque los modelos de lenguaje grande y visión-lenguaje (LLM/LVLMs) han ganado prominencia en varios dominios, su aplicación en este campo sigue siendo relativamente poco explorada. Aquí proponemos VideoLights, un nuevo marco HD/MR que aborda estas limitaciones a través de (i) módulos de Proyección Convolucional y Refinamiento de Características con una pérdida de alineación para una mejor alineación de características de video-texto, (ii) una red de Fusión Cruzada Bi-Direccional para representaciones de clips con conciencia de consulta fuertemente acopladas, y (iii) un mecanismo de retroalimentación conjunta unidireccional que mejora ambas tareas a través de la correlación. Además, (iv) introducimos pérdidas duras positivas/negativas para penalización de errores adaptativa y aprendizaje mejorado, y (v) aprovechamos LVLMs como BLIP-2 para una integración de características multimodales mejorada y un preentrenamiento inteligente utilizando datos sintéticos generados a partir de LVLMs. Experimentos exhaustivos en los benchmarks QVHighlights, TVSum y Charades-STA demuestran un rendimiento de vanguardia. Los códigos y modelos están disponibles en https://github.com/dpaul06/VideoLights.

English

Video Highlight Detection and Moment Retrieval (HD/MR) are essential in video analysis. Recent joint prediction transformer models often overlook their cross-task dynamics and video-text alignment and refinement. Moreover, most models typically use limited, uni-directional attention mechanisms, resulting in weakly integrated representations and suboptimal performance in capturing the interdependence between video and text modalities. Although large-language and vision-language models (LLM/LVLMs) have gained prominence across various domains, their application in this field remains relatively underexplored. Here we propose VideoLights, a novel HD/MR framework addressing these limitations through (i) Convolutional Projection and Feature Refinement modules with an alignment loss for better video-text feature alignment, (ii) Bi-Directional Cross-Modal Fusion network for strongly coupled query-aware clip representations, and (iii) Uni-directional joint-task feedback mechanism enhancing both tasks through correlation. In addition, (iv) we introduce hard positive/negative losses for adaptive error penalization and improved learning, and (v) leverage LVLMs like BLIP-2 for enhanced multimodal feature integration and intelligent pretraining using synthetic data generated from LVLMs. Comprehensive experiments on QVHighlights, TVSum, and Charades-STA benchmarks demonstrate state-of-the-art performance. Codes and models are available at https://github.com/dpaul06/VideoLights .

VideoLights: Refinamiento de Características y Transformador de Alineación Cruzada para la Detección Conjunta de Momentos Destacados en Video y Recuperación de Momentos

VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval

Resumen

Support