TRACE: Localización Temporal de Video mediante Modelado de Eventos Causales
TRACE: Temporal Grounding Video LLM via Causal Event Modeling
October 8, 2024
Autores: Yongxin Guo, Jingyu Liu, Mingda Li, Xiaoying Tang, Qingbin Liu, Xi Chen
cs.AI
Resumen
La Temporalización de Video (VTG) es una capacidad crucial para los modelos de comprensión de video y desempeña un papel vital en tareas posteriores como la navegación y edición de videos. Para manejar efectivamente varias tareas simultáneamente y permitir la predicción sin datos, hay una tendencia creciente en el uso de LLMs de video para tareas de VTG. Sin embargo, los métodos actuales basados en LLMs de video dependen exclusivamente de la generación de lenguaje natural, careciendo de la capacidad para modelar la clara estructura inherente en los videos, lo que limita su efectividad en abordar las tareas de VTG. Para abordar este problema, este documento introduce formalmente primero un marco de modelado de eventos causales, que representa videos como secuencias de eventos, y predice el evento actual utilizando eventos anteriores, entradas de video e instrucciones textuales. Cada evento consta de tres componentes: marcas de tiempo, puntajes destacados y leyendas textuales. Luego, proponemos un nuevo LLM de video entrelazado de tareas llamado TRACE para implementar efectivamente el marco de modelado de eventos causales en la práctica. TRACE procesa cuadros visuales, marcas de tiempo, puntajes destacados y texto como tareas distintas, empleando varios codificadores y cabezas de decodificación para cada uno. Los tokens de tarea se organizan en una secuencia entrelazada de acuerdo con la formulación del marco de modelado de eventos causales. Experimentos extensos en varias tareas y conjuntos de datos de VTG demuestran el rendimiento superior de TRACE en comparación con los LLMs de video de última generación. Nuestro modelo y código están disponibles en https://github.com/gyxxyg/TRACE.
English
Video Temporal Grounding (VTG) is a crucial capability for video
understanding models and plays a vital role in downstream tasks such as video
browsing and editing. To effectively handle various tasks simultaneously and
enable zero-shot prediction, there is a growing trend in employing video LLMs
for VTG tasks. However, current video LLM-based methods rely exclusively on
natural language generation, lacking the ability to model the clear structure
inherent in videos, which restricts their effectiveness in tackling VTG tasks.
To address this issue, this paper first formally introduces causal event
modeling framework, which represents videos as sequences of events, and predict
the current event using previous events, video inputs, and textural
instructions. Each event consists of three components: timestamps, salient
scores, and textual captions. We then propose a novel task-interleaved video
LLM called TRACE to effectively implement the causal event modeling framework
in practice. The TRACE processes visual frames, timestamps, salient scores, and
text as distinct tasks, employing various encoders and decoding heads for each.
Task tokens are arranged in an interleaved sequence according to the causal
event modeling framework's formulation. Extensive experiments on various VTG
tasks and datasets demonstrate the superior performance of TRACE compared to
state-of-the-art video LLMs. Our model and code are available at
https://github.com/gyxxyg/TRACE.Summary
AI-Generated Summary