TRACCIA: Temporalizzazione Video basata su Modellazione degli Eventi Causali
TRACE: Temporal Grounding Video LLM via Causal Event Modeling
October 8, 2024
Autori: Yongxin Guo, Jingyu Liu, Mingda Li, Xiaoying Tang, Qingbin Liu, Xi Chen
cs.AI
Abstract
Il Temporal Grounding dei Video (VTG) è una capacità cruciale per i modelli di comprensione dei video e svolge un ruolo vitale in compiti successivi come la navigazione e l'editing video. Per gestire efficacemente varie attività contemporaneamente e consentire la previsione senza dati, c'è una crescente tendenza nell'impiego di LLM video per compiti VTG. Tuttavia, i metodi attuali basati su LLM video si basano esclusivamente sulla generazione di linguaggio naturale, mancando della capacità di modellare la chiara struttura intrinseca nei video, il che limita la loro efficacia nel affrontare i compiti VTG. Per affrontare questo problema, questo articolo introduce formalmente inizialmente un framework di modellazione degli eventi causali, che rappresenta i video come sequenze di eventi e prevede l'evento attuale utilizzando eventi precedenti, input video e istruzioni testuali. Ogni evento è composto da tre componenti: timestamp, punteggi salienti e didascalie testuali. Successivamente proponiamo un nuovo LLM video task-interleaved chiamato TRACE per implementare efficacemente il framework di modellazione degli eventi causali nella pratica. TRACE elabora fotogrammi visivi, timestamp, punteggi salienti e testo come compiti distinti, impiegando vari encoder e testine di decodifica per ciascuno. I token dei compiti sono disposti in una sequenza interlacciata secondo la formulazione del framework di modellazione degli eventi causali. Estesi esperimenti su vari compiti e set di dati VTG dimostrano le prestazioni superiori di TRACE rispetto ai LLM video all'avanguardia. Il nostro modello e codice sono disponibili su https://github.com/gyxxyg/TRACE.
English
Video Temporal Grounding (VTG) is a crucial capability for video
understanding models and plays a vital role in downstream tasks such as video
browsing and editing. To effectively handle various tasks simultaneously and
enable zero-shot prediction, there is a growing trend in employing video LLMs
for VTG tasks. However, current video LLM-based methods rely exclusively on
natural language generation, lacking the ability to model the clear structure
inherent in videos, which restricts their effectiveness in tackling VTG tasks.
To address this issue, this paper first formally introduces causal event
modeling framework, which represents videos as sequences of events, and predict
the current event using previous events, video inputs, and textural
instructions. Each event consists of three components: timestamps, salient
scores, and textual captions. We then propose a novel task-interleaved video
LLM called TRACE to effectively implement the causal event modeling framework
in practice. The TRACE processes visual frames, timestamps, salient scores, and
text as distinct tasks, employing various encoders and decoding heads for each.
Task tokens are arranged in an interleaved sequence according to the causal
event modeling framework's formulation. Extensive experiments on various VTG
tasks and datasets demonstrate the superior performance of TRACE compared to
state-of-the-art video LLMs. Our model and code are available at
https://github.com/gyxxyg/TRACE.