TEMPURA: Temporele Gebeurtenismaskering en Voorspelling voor Redeneren in Actie
TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action
May 2, 2025
Auteurs: Jen-Hao Cheng, Vivian Wang, Huayu Wang, Huapeng Zhou, Yi-Hao Peng, Hou-I Liu, Hsiang-Wei Huang, Kuang-Ming Chen, Cheng-Yen Yang, Wenhao Chai, Yi-Ling Chen, Vibhav Vineet, Qin Cai, Jenq-Neng Hwang
cs.AI
Samenvatting
Het begrijpen van causale gebeurtenisrelaties en het bereiken van fijnmazige temporele verankering in video's blijven uitdagingen voor vision-language-modellen. Bestaande methoden comprimeren ofwel videotokens om de temporele resolutie te verlagen, of behandelen video's als ongesegmenteerde stromen, wat fijnmazige gebeurtenisgrenzen verdoezelt en de modellering van causale afhankelijkheden beperkt. Wij stellen TEMPURA (Temporal Event Masked Prediction and Understanding for Reasoning in Action) voor, een tweestaps trainingsframework dat het temporele begrip van video's verbetert. TEMPURA past eerst gemaskeerde gebeurtenisvoorspellingsredenering toe om ontbrekende gebeurtenissen te reconstrueren en stapsgewijze causale verklaringen te genereren op basis van gedetailleerde gebeurtenisaantekeningen, waarbij inspiratie wordt geput uit effectieve infill-technieken. Vervolgens leert TEMPURA videosegmentatie en dense captioning uit te voeren om video's te ontbinden in niet-overlappende gebeurtenissen met gedetailleerde, tijdstempel-uitgelijnde beschrijvingen. We trainen TEMPURA op VER, een grootschalige dataset die door ons is samengesteld en bestaat uit 1 miljoen trainingsinstanties en 500.000 video's met temporeel uitgelijnde gebeurtenisbeschrijvingen en gestructureerde redeneerstappen. Experimenten op benchmarks voor temporele verankering en highlightdetectie tonen aan dat TEMPURA sterke basismodellen overtreft, wat bevestigt dat de integratie van causaal redeneren met fijnmazige temporele segmentatie leidt tot een verbeterd videobegrip.
English
Understanding causal event relationships and achieving fine-grained temporal
grounding in videos remain challenging for vision-language models. Existing
methods either compress video tokens to reduce temporal resolution, or treat
videos as unsegmented streams, which obscures fine-grained event boundaries and
limits the modeling of causal dependencies. We propose TEMPURA (Temporal Event
Masked Prediction and Understanding for Reasoning in Action), a two-stage
training framework that enhances video temporal understanding. TEMPURA first
applies masked event prediction reasoning to reconstruct missing events and
generate step-by-step causal explanations from dense event annotations, drawing
inspiration from effective infilling techniques. TEMPURA then learns to perform
video segmentation and dense captioning to decompose videos into
non-overlapping events with detailed, timestamp-aligned descriptions. We train
TEMPURA on VER, a large-scale dataset curated by us that comprises 1M training
instances and 500K videos with temporally aligned event descriptions and
structured reasoning steps. Experiments on temporal grounding and highlight
detection benchmarks demonstrate that TEMPURA outperforms strong baseline
models, confirming that integrating causal reasoning with fine-grained temporal
segmentation leads to improved video understanding.