TEMPURA: Predição e Compreensão de Eventos Temporais com Mascaramento para Raciocínio em Ação
TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action
May 2, 2025
Autores: Jen-Hao Cheng, Vivian Wang, Huayu Wang, Huapeng Zhou, Yi-Hao Peng, Hou-I Liu, Hsiang-Wei Huang, Kuang-Ming Chen, Cheng-Yen Yang, Wenhao Chai, Yi-Ling Chen, Vibhav Vineet, Qin Cai, Jenq-Neng Hwang
cs.AI
Resumo
Compreender as relações causais entre eventos e alcançar uma ancoragem temporal refinada em vídeos continua sendo um desafio para modelos de visão e linguagem. Os métodos existentes ou comprimem os tokens de vídeo para reduzir a resolução temporal, ou tratam os vídeos como fluxos não segmentados, o que obscurece os limites refinados dos eventos e limita a modelagem de dependências causais. Propomos o TEMPURA (Temporal Event Masked Prediction and Understanding for Reasoning in Action), uma estrutura de treinamento em duas etapas que aprimora a compreensão temporal de vídeos. O TEMPURA primeiro aplica o raciocínio de previsão de eventos mascarados para reconstruir eventos ausentes e gerar explicações causais passo a passo a partir de anotações densas de eventos, inspirando-se em técnicas eficazes de preenchimento. Em seguida, o TEMPURA aprende a realizar segmentação de vídeo e legendagem densa para decompor vídeos em eventos não sobrepostos com descrições detalhadas e alinhadas por timestamp. Treinamos o TEMPURA no VER, um conjunto de dados em larga escala que criamos, composto por 1 milhão de instâncias de treinamento e 500 mil vídeos com descrições de eventos temporalmente alinhadas e etapas de raciocínio estruturadas. Experimentos em benchmarks de ancoragem temporal e detecção de destaques demonstram que o TEMPURA supera modelos de linha de base robustos, confirmando que a integração do raciocínio causal com a segmentação temporal refinada leva a uma melhor compreensão de vídeos.
English
Understanding causal event relationships and achieving fine-grained temporal
grounding in videos remain challenging for vision-language models. Existing
methods either compress video tokens to reduce temporal resolution, or treat
videos as unsegmented streams, which obscures fine-grained event boundaries and
limits the modeling of causal dependencies. We propose TEMPURA (Temporal Event
Masked Prediction and Understanding for Reasoning in Action), a two-stage
training framework that enhances video temporal understanding. TEMPURA first
applies masked event prediction reasoning to reconstruct missing events and
generate step-by-step causal explanations from dense event annotations, drawing
inspiration from effective infilling techniques. TEMPURA then learns to perform
video segmentation and dense captioning to decompose videos into
non-overlapping events with detailed, timestamp-aligned descriptions. We train
TEMPURA on VER, a large-scale dataset curated by us that comprises 1M training
instances and 500K videos with temporally aligned event descriptions and
structured reasoning steps. Experiments on temporal grounding and highlight
detection benchmarks demonstrate that TEMPURA outperforms strong baseline
models, confirming that integrating causal reasoning with fine-grained temporal
segmentation leads to improved video understanding.