TEMPURA : Prédiction et Compréhension Masquées d'Événements Temporels pour le Raisonnement dans l'Action
TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action
May 2, 2025
Auteurs: Jen-Hao Cheng, Vivian Wang, Huayu Wang, Huapeng Zhou, Yi-Hao Peng, Hou-I Liu, Hsiang-Wei Huang, Kuang-Ming Chen, Cheng-Yen Yang, Wenhao Chai, Yi-Ling Chen, Vibhav Vineet, Qin Cai, Jenq-Neng Hwang
cs.AI
Résumé
La compréhension des relations causales entre événements et l'ancrage temporel fin dans les vidéos restent des défis pour les modèles vision-langage. Les méthodes existantes compressent les tokens vidéo pour réduire la résolution temporelle ou traitent les vidéos comme des flux non segmentés, ce qui brouille les limites fines des événements et limite la modélisation des dépendances causales. Nous proposons TEMPURA (Temporal Event Masked Prediction and Understanding for Reasoning in Action), un cadre d'apprentissage en deux étapes qui améliore la compréhension temporelle des vidéos. TEMPURA applique d'abord un raisonnement de prédiction d'événements masqués pour reconstruire les événements manquants et générer des explications causales étape par étape à partir d'annotations d'événements denses, s'inspirant des techniques efficaces de remplissage. TEMPURA apprend ensuite à effectuer une segmentation vidéo et un sous-titrage dense pour décomposer les vidéos en événements non chevauchants avec des descriptions détaillées alignées sur les timestamps. Nous entraînons TEMPURA sur VER, un ensemble de données à grande échelle que nous avons constitué, comprenant 1 million d'instances d'entraînement et 500 000 vidéos avec des descriptions d'événements alignées temporellement et des étapes de raisonnement structurées. Les expériences sur des benchmarks d'ancrage temporel et de détection de moments forts montrent que TEMPURA surpasse les modèles de référence, confirmant que l'intégration du raisonnement causal avec une segmentation temporelle fine améliore la compréhension des vidéos.
English
Understanding causal event relationships and achieving fine-grained temporal
grounding in videos remain challenging for vision-language models. Existing
methods either compress video tokens to reduce temporal resolution, or treat
videos as unsegmented streams, which obscures fine-grained event boundaries and
limits the modeling of causal dependencies. We propose TEMPURA (Temporal Event
Masked Prediction and Understanding for Reasoning in Action), a two-stage
training framework that enhances video temporal understanding. TEMPURA first
applies masked event prediction reasoning to reconstruct missing events and
generate step-by-step causal explanations from dense event annotations, drawing
inspiration from effective infilling techniques. TEMPURA then learns to perform
video segmentation and dense captioning to decompose videos into
non-overlapping events with detailed, timestamp-aligned descriptions. We train
TEMPURA on VER, a large-scale dataset curated by us that comprises 1M training
instances and 500K videos with temporally aligned event descriptions and
structured reasoning steps. Experiments on temporal grounding and highlight
detection benchmarks demonstrate that TEMPURA outperforms strong baseline
models, confirming that integrating causal reasoning with fine-grained temporal
segmentation leads to improved video understanding.Summary
AI-Generated Summary