TEMPURA: 行動推論のための時間的イベントマスク予測と理解
TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action
May 2, 2025
著者: Jen-Hao Cheng, Vivian Wang, Huayu Wang, Huapeng Zhou, Yi-Hao Peng, Hou-I Liu, Hsiang-Wei Huang, Kuang-Ming Chen, Cheng-Yen Yang, Wenhao Chai, Yi-Ling Chen, Vibhav Vineet, Qin Cai, Jenq-Neng Hwang
cs.AI
要旨
映像と言語モデルにおいて、因果的なイベント関係の理解と細粒度の時間的グラウンディングの達成は依然として課題となっている。既存の手法では、時間解像度を低下させるためにビデオトークンを圧縮するか、ビデオを未分割のストリームとして扱うことが多く、これにより細粒度のイベント境界が曖昧になり、因果依存関係のモデリングが制限される。本論文では、TEMPURA(Temporal Event Masked Prediction and Understanding for Reasoning in Action)を提案する。これは、ビデオの時間的理解を強化する2段階のトレーニングフレームワークである。TEMPURAはまず、効果的な穴埋め技術に着想を得て、欠落したイベントを再構築し、密なイベントアノテーションから段階的な因果説明を生成するためのマスクされたイベント予測推論を適用する。次に、TEMPURAはビデオセグメンテーションと密なキャプショニングを学習し、ビデオを詳細なタイムスタンプ付きの説明とともに重複しないイベントに分解する。TEMPURAは、我々が作成した大規模データセットVERでトレーニングされる。VERは、時間的に整列したイベント説明と構造化された推論ステップを含む100万のトレーニングインスタンスと50万のビデオで構成されている。時間的グラウンディングとハイライト検出のベンチマークでの実験により、TEMPURAが強力なベースラインモデルを上回ることが示され、因果推論と細粒度の時間的セグメンテーションを統合することがビデオ理解の向上につながることが確認された。
English
Understanding causal event relationships and achieving fine-grained temporal
grounding in videos remain challenging for vision-language models. Existing
methods either compress video tokens to reduce temporal resolution, or treat
videos as unsegmented streams, which obscures fine-grained event boundaries and
limits the modeling of causal dependencies. We propose TEMPURA (Temporal Event
Masked Prediction and Understanding for Reasoning in Action), a two-stage
training framework that enhances video temporal understanding. TEMPURA first
applies masked event prediction reasoning to reconstruct missing events and
generate step-by-step causal explanations from dense event annotations, drawing
inspiration from effective infilling techniques. TEMPURA then learns to perform
video segmentation and dense captioning to decompose videos into
non-overlapping events with detailed, timestamp-aligned descriptions. We train
TEMPURA on VER, a large-scale dataset curated by us that comprises 1M training
instances and 500K videos with temporally aligned event descriptions and
structured reasoning steps. Experiments on temporal grounding and highlight
detection benchmarks demonstrate that TEMPURA outperforms strong baseline
models, confirming that integrating causal reasoning with fine-grained temporal
segmentation leads to improved video understanding.Summary
AI-Generated Summary