TEMPURA: Temporale Ereignismaskierung, Vorhersage und Verständnis für das Handlungsbegründen
TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action
May 2, 2025
Autoren: Jen-Hao Cheng, Vivian Wang, Huayu Wang, Huapeng Zhou, Yi-Hao Peng, Hou-I Liu, Hsiang-Wei Huang, Kuang-Ming Chen, Cheng-Yen Yang, Wenhao Chai, Yi-Ling Chen, Vibhav Vineet, Qin Cai, Jenq-Neng Hwang
cs.AI
Zusammenfassung
Das Verständnis kausaler Ereignisbeziehungen und die präzise zeitliche Verankerung in Videos bleiben für Vision-Sprach-Modelle eine Herausforderung. Bestehende Methoden komprimieren entweder Video-Tokens, um die zeitliche Auflösung zu reduzieren, oder behandeln Videos als unsegmentierte Ströme, was feingranulare Ereignisgrenzen verschleiert und die Modellierung kausaler Abhängigkeiten einschränkt. Wir schlagen TEMPURA (Temporal Event Masked Prediction and Understanding for Reasoning in Action) vor, ein zweistufiges Trainingsframework, das das zeitliche Verständnis von Videos verbessert. TEMPURA wendet zunächst eine maskierte Ereignisvorhersage an, um fehlende Ereignisse zu rekonstruieren und schrittweise kausale Erklärungen aus dichten Ereignisanmerkungen zu generieren, inspiriert von effektiven Infilling-Techniken. Anschließend lernt TEMPURA, Videos zu segmentieren und dichte Beschreibungen zu erstellen, um Videos in sich nicht überschneidende Ereignisse mit detaillierten, zeitlich ausgerichteten Beschreibungen zu zerlegen. Wir trainieren TEMPURA auf VER, einem von uns kuratierten groß angelegten Datensatz, der 1M Trainingsinstanzen und 500K Videos mit zeitlich ausgerichteten Ereignisbeschreibungen und strukturierten Denkschritten umfasst. Experimente zu zeitlicher Verankerung und Highlight-Erkennung zeigen, dass TEMPURA starke Baseline-Modelle übertrifft, was bestätigt, dass die Integration von kausalem Denken mit feingranularer zeitlicher Segmentierung zu einem verbesserten Videoverständnis führt.
English
Understanding causal event relationships and achieving fine-grained temporal
grounding in videos remain challenging for vision-language models. Existing
methods either compress video tokens to reduce temporal resolution, or treat
videos as unsegmented streams, which obscures fine-grained event boundaries and
limits the modeling of causal dependencies. We propose TEMPURA (Temporal Event
Masked Prediction and Understanding for Reasoning in Action), a two-stage
training framework that enhances video temporal understanding. TEMPURA first
applies masked event prediction reasoning to reconstruct missing events and
generate step-by-step causal explanations from dense event annotations, drawing
inspiration from effective infilling techniques. TEMPURA then learns to perform
video segmentation and dense captioning to decompose videos into
non-overlapping events with detailed, timestamp-aligned descriptions. We train
TEMPURA on VER, a large-scale dataset curated by us that comprises 1M training
instances and 500K videos with temporally aligned event descriptions and
structured reasoning steps. Experiments on temporal grounding and highlight
detection benchmarks demonstrate that TEMPURA outperforms strong baseline
models, confirming that integrating causal reasoning with fine-grained temporal
segmentation leads to improved video understanding.Summary
AI-Generated Summary