TRACE: Localización Temporal de Video mediante Modelado de Eventos Causales

Resumen

La Temporalización de Video (VTG) es una capacidad crucial para los modelos de comprensión de video y desempeña un papel vital en tareas posteriores como la navegación y edición de videos. Para manejar efectivamente varias tareas simultáneamente y permitir la predicción sin datos, hay una tendencia creciente en el uso de LLMs de video para tareas de VTG. Sin embargo, los métodos actuales basados en LLMs de video dependen exclusivamente de la generación de lenguaje natural, careciendo de la capacidad para modelar la clara estructura inherente en los videos, lo que limita su efectividad en abordar las tareas de VTG. Para abordar este problema, este documento introduce formalmente primero un marco de modelado de eventos causales, que representa videos como secuencias de eventos, y predice el evento actual utilizando eventos anteriores, entradas de video e instrucciones textuales. Cada evento consta de tres componentes: marcas de tiempo, puntajes destacados y leyendas textuales. Luego, proponemos un nuevo LLM de video entrelazado de tareas llamado TRACE para implementar efectivamente el marco de modelado de eventos causales en la práctica. TRACE procesa cuadros visuales, marcas de tiempo, puntajes destacados y texto como tareas distintas, empleando varios codificadores y cabezas de decodificación para cada uno. Los tokens de tarea se organizan en una secuencia entrelazada de acuerdo con la formulación del marco de modelado de eventos causales. Experimentos extensos en varias tareas y conjuntos de datos de VTG demuestran el rendimiento superior de TRACE en comparación con los LLMs de video de última generación. Nuestro modelo y código están disponibles en https://github.com/gyxxyg/TRACE.

English

Video Temporal Grounding (VTG) is a crucial capability for video understanding models and plays a vital role in downstream tasks such as video browsing and editing. To effectively handle various tasks simultaneously and enable zero-shot prediction, there is a growing trend in employing video LLMs for VTG tasks. However, current video LLM-based methods rely exclusively on natural language generation, lacking the ability to model the clear structure inherent in videos, which restricts their effectiveness in tackling VTG tasks. To address this issue, this paper first formally introduces causal event modeling framework, which represents videos as sequences of events, and predict the current event using previous events, video inputs, and textural instructions. Each event consists of three components: timestamps, salient scores, and textual captions. We then propose a novel task-interleaved video LLM called TRACE to effectively implement the causal event modeling framework in practice. The TRACE processes visual frames, timestamps, salient scores, and text as distinct tasks, employing various encoders and decoding heads for each. Task tokens are arranged in an interleaved sequence according to the causal event modeling framework's formulation. Extensive experiments on various VTG tasks and datasets demonstrate the superior performance of TRACE compared to state-of-the-art video LLMs. Our model and code are available at https://github.com/gyxxyg/TRACE.

TRACE: Localización Temporal de Video mediante Modelado de Eventos Causales

TRACE: Temporal Grounding Video LLM via Causal Event Modeling

Resumen

Support