ChatPaper.aiChatPaper

TEMPURA: Predicción y Comprensión de Eventos Temporales Enmascarados para el Razonamiento en Acción

TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action

May 2, 2025
Autores: Jen-Hao Cheng, Vivian Wang, Huayu Wang, Huapeng Zhou, Yi-Hao Peng, Hou-I Liu, Hsiang-Wei Huang, Kuang-Ming Chen, Cheng-Yen Yang, Wenhao Chai, Yi-Ling Chen, Vibhav Vineet, Qin Cai, Jenq-Neng Hwang
cs.AI

Resumen

Comprender las relaciones causales entre eventos y lograr una localización temporal detallada en videos sigue siendo un desafío para los modelos de visión y lenguaje. Los métodos existentes o bien comprimen los tokens de video para reducir la resolución temporal, o tratan los videos como flujos no segmentados, lo que oscurece los límites detallados de los eventos y limita el modelado de dependencias causales. Proponemos TEMPURA (Predicción y Comprensión de Eventos Temporales Enmascarados para el Razonamiento en Acción), un marco de entrenamiento en dos etapas que mejora la comprensión temporal de videos. TEMPURA primero aplica un razonamiento de predicción de eventos enmascarados para reconstruir eventos faltantes y generar explicaciones causales paso a paso a partir de anotaciones densas de eventos, inspirándose en técnicas efectivas de relleno. Luego, TEMPURA aprende a realizar segmentación de video y descripción densa para descomponer los videos en eventos no superpuestos con descripciones detalladas y alineadas temporalmente. Entrenamos TEMPURA en VER, un conjunto de datos a gran escala curado por nosotros que incluye 1 millón de instancias de entrenamiento y 500 mil videos con descripciones de eventos alineadas temporalmente y pasos de razonamiento estructurados. Los experimentos en benchmarks de localización temporal y detección de momentos destacados demuestran que TEMPURA supera a modelos de referencia sólidos, confirmando que la integración del razonamiento causal con la segmentación temporal detallada conduce a una mejor comprensión de videos.
English
Understanding causal event relationships and achieving fine-grained temporal grounding in videos remain challenging for vision-language models. Existing methods either compress video tokens to reduce temporal resolution, or treat videos as unsegmented streams, which obscures fine-grained event boundaries and limits the modeling of causal dependencies. We propose TEMPURA (Temporal Event Masked Prediction and Understanding for Reasoning in Action), a two-stage training framework that enhances video temporal understanding. TEMPURA first applies masked event prediction reasoning to reconstruct missing events and generate step-by-step causal explanations from dense event annotations, drawing inspiration from effective infilling techniques. TEMPURA then learns to perform video segmentation and dense captioning to decompose videos into non-overlapping events with detailed, timestamp-aligned descriptions. We train TEMPURA on VER, a large-scale dataset curated by us that comprises 1M training instances and 500K videos with temporally aligned event descriptions and structured reasoning steps. Experiments on temporal grounding and highlight detection benchmarks demonstrate that TEMPURA outperforms strong baseline models, confirming that integrating causal reasoning with fine-grained temporal segmentation leads to improved video understanding.

Summary

AI-Generated Summary

PDF61May 6, 2025