VideoLights: Refinamento de Características e Transformador de Alinhamento entre Tarefas para Detecção Conjunta de Destaques em Vídeos e Recuperação de Momentos
VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval
December 2, 2024
Autores: Dhiman Paul, Md Rizwan Parvez, Nabeel Mohammed, Shafin Rahman
cs.AI
Resumo
A detecção de destaques de vídeo e a recuperação de momentos (HD/MR) são essenciais na análise de vídeo. Modelos recentes de transformadores de predição conjunta frequentemente negligenciam a dinâmica entre tarefas e o alinhamento e refinamento entre vídeo e texto. Além disso, a maioria dos modelos normalmente utiliza mecanismos de atenção limitados e unidirecionais, resultando em representações fracamente integradas e desempenho subótimo na captura da interdependência entre as modalidades de vídeo e texto. Embora os modelos de linguagem grande (LLM) e visão-linguagem (LVLM) tenham ganhado destaque em várias áreas, sua aplicação nesse campo ainda é relativamente pouco explorada. Aqui propomos o VideoLights, um novo framework HD/MR que aborda essas limitações por meio de (i) Módulos de Projeção Convolucional e Refinamento de Características com uma perda de alinhamento para melhorar o alinhamento de características entre vídeo e texto, (ii) Rede de Fusão Cruzada Bi-Direcional para representações de clipe conscientes de consulta fortemente acopladas, e (iii) mecanismo de feedback conjunto unidirecional que aprimora ambas as tarefas por meio de correlação. Além disso, (iv) introduzimos perdas positivas/negativas difíceis para penalização adaptativa de erros e aprendizado aprimorado, e (v) aproveitamos LVLMs como o BLIP-2 para integração aprimorada de características multimodais e pré-treinamento inteligente usando dados sintéticos gerados a partir de LVLMs. Experimentos abrangentes nos benchmarks QVHighlights, TVSum e Charades-STA demonstram desempenho de ponta. Códigos e modelos estão disponíveis em https://github.com/dpaul06/VideoLights.
English
Video Highlight Detection and Moment Retrieval (HD/MR) are essential in video
analysis. Recent joint prediction transformer models often overlook their
cross-task dynamics and video-text alignment and refinement. Moreover, most
models typically use limited, uni-directional attention mechanisms, resulting
in weakly integrated representations and suboptimal performance in capturing
the interdependence between video and text modalities. Although large-language
and vision-language models (LLM/LVLMs) have gained prominence across various
domains, their application in this field remains relatively underexplored. Here
we propose VideoLights, a novel HD/MR framework addressing these limitations
through (i) Convolutional Projection and Feature Refinement modules with an
alignment loss for better video-text feature alignment, (ii) Bi-Directional
Cross-Modal Fusion network for strongly coupled query-aware clip
representations, and (iii) Uni-directional joint-task feedback mechanism
enhancing both tasks through correlation. In addition, (iv) we introduce hard
positive/negative losses for adaptive error penalization and improved learning,
and (v) leverage LVLMs like BLIP-2 for enhanced multimodal feature integration
and intelligent pretraining using synthetic data generated from LVLMs.
Comprehensive experiments on QVHighlights, TVSum, and Charades-STA benchmarks
demonstrate state-of-the-art performance. Codes and models are available at
https://github.com/dpaul06/VideoLights .Summary
AI-Generated Summary