TEMPURA: Временное маскированное предсказание и понимание событий для рассуждений в действии
TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action
May 2, 2025
Авторы: Jen-Hao Cheng, Vivian Wang, Huayu Wang, Huapeng Zhou, Yi-Hao Peng, Hou-I Liu, Hsiang-Wei Huang, Kuang-Ming Chen, Cheng-Yen Yang, Wenhao Chai, Yi-Ling Chen, Vibhav Vineet, Qin Cai, Jenq-Neng Hwang
cs.AI
Аннотация
Понимание причинно-следственных связей между событиями и достижение точного временного закрепления в видео остаются сложными задачами для моделей, работающих с визуальными и языковыми данными. Существующие методы либо сжимают видео-токены для снижения временного разрешения, либо рассматривают видео как непрерывные потоки, что скрывает границы событий и ограничивает моделирование причинно-следственных зависимостей. Мы предлагаем TEMPURA (Temporal Event Masked Prediction and Understanding for Reasoning in Action) — двухэтапную обучающую структуру, которая улучшает понимание временной структуры видео. TEMPURA сначала применяет рассуждения с предсказанием маскированных событий для восстановления пропущенных событий и генерации пошаговых причинно-следственных объяснений на основе плотных аннотаций событий, вдохновляясь эффективными методами заполнения пропусков. Затем TEMPURA обучается выполнять сегментацию видео и плотное описание, разбивая видео на неперекрывающиеся события с детальными описаниями, привязанными к временным меткам. Мы обучаем TEMPURA на VER, крупномасштабном наборе данных, созданном нами, который включает 1 млн обучающих примеров и 500 тыс. видео с временно выровненными описаниями событий и структурированными шагами рассуждений. Эксперименты на задачах временного закрепления и обнаружения ключевых моментов показывают, что TEMPURA превосходит сильные базовые модели, подтверждая, что интеграция причинно-следственного анализа с точной временной сегментацией приводит к улучшенному пониманию видео.
English
Understanding causal event relationships and achieving fine-grained temporal
grounding in videos remain challenging for vision-language models. Existing
methods either compress video tokens to reduce temporal resolution, or treat
videos as unsegmented streams, which obscures fine-grained event boundaries and
limits the modeling of causal dependencies. We propose TEMPURA (Temporal Event
Masked Prediction and Understanding for Reasoning in Action), a two-stage
training framework that enhances video temporal understanding. TEMPURA first
applies masked event prediction reasoning to reconstruct missing events and
generate step-by-step causal explanations from dense event annotations, drawing
inspiration from effective infilling techniques. TEMPURA then learns to perform
video segmentation and dense captioning to decompose videos into
non-overlapping events with detailed, timestamp-aligned descriptions. We train
TEMPURA on VER, a large-scale dataset curated by us that comprises 1M training
instances and 500K videos with temporally aligned event descriptions and
structured reasoning steps. Experiments on temporal grounding and highlight
detection benchmarks demonstrate that TEMPURA outperforms strong baseline
models, confirming that integrating causal reasoning with fine-grained temporal
segmentation leads to improved video understanding.Summary
AI-Generated Summary