TEMPURA: Predizione e Comprensione di Eventi Temporali con Mascheramento per il Ragionamento nell'Azione
TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action
May 2, 2025
Autori: Jen-Hao Cheng, Vivian Wang, Huayu Wang, Huapeng Zhou, Yi-Hao Peng, Hou-I Liu, Hsiang-Wei Huang, Kuang-Ming Chen, Cheng-Yen Yang, Wenhao Chai, Yi-Ling Chen, Vibhav Vineet, Qin Cai, Jenq-Neng Hwang
cs.AI
Abstract
Comprendere le relazioni causali tra eventi e ottenere un ancoraggio temporale fine nei video rimane una sfida per i modelli visione-linguaggio. I metodi esistenti comprimono i token video per ridurre la risoluzione temporale o trattano i video come flussi non segmentati, oscurando i confini degli eventi a livello fine e limitando la modellazione delle dipendenze causali. Proponiamo TEMPURA (Temporal Event Masked Prediction and Understanding for Reasoning in Action), un framework di addestramento in due fasi che migliora la comprensione temporale dei video. TEMPURA applica inizialmente un ragionamento di predizione mascherata degli eventi per ricostruire eventi mancanti e generare spiegazioni causali passo-passo da annotazioni dense di eventi, traendo ispirazione da tecniche efficaci di riempimento. Successivamente, TEMPURA impara a eseguire segmentazione video e captioning denso per scomporre i video in eventi non sovrapposti con descrizioni dettagliate e allineate temporalmente. Addestriamo TEMPURA su VER, un dataset su larga scala da noi curato che comprende 1M di istanze di addestramento e 500K video con descrizioni di eventi allineate temporalmente e passaggi di ragionamento strutturati. Esperimenti su benchmark di ancoraggio temporale e rilevazione di momenti salienti dimostrano che TEMPURA supera modelli baseline robusti, confermando che l'integrazione del ragionamento causale con la segmentazione temporale fine porta a una migliore comprensione dei video.
English
Understanding causal event relationships and achieving fine-grained temporal
grounding in videos remain challenging for vision-language models. Existing
methods either compress video tokens to reduce temporal resolution, or treat
videos as unsegmented streams, which obscures fine-grained event boundaries and
limits the modeling of causal dependencies. We propose TEMPURA (Temporal Event
Masked Prediction and Understanding for Reasoning in Action), a two-stage
training framework that enhances video temporal understanding. TEMPURA first
applies masked event prediction reasoning to reconstruct missing events and
generate step-by-step causal explanations from dense event annotations, drawing
inspiration from effective infilling techniques. TEMPURA then learns to perform
video segmentation and dense captioning to decompose videos into
non-overlapping events with detailed, timestamp-aligned descriptions. We train
TEMPURA on VER, a large-scale dataset curated by us that comprises 1M training
instances and 500K videos with temporally aligned event descriptions and
structured reasoning steps. Experiments on temporal grounding and highlight
detection benchmarks demonstrate that TEMPURA outperforms strong baseline
models, confirming that integrating causal reasoning with fine-grained temporal
segmentation leads to improved video understanding.