ChatPaper.aiChatPaper

TEMPURA: 행동 추론을 위한 시간적 이벤트 마스킹 예측 및 이해

TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action

May 2, 2025
저자: Jen-Hao Cheng, Vivian Wang, Huayu Wang, Huapeng Zhou, Yi-Hao Peng, Hou-I Liu, Hsiang-Wei Huang, Kuang-Ming Chen, Cheng-Yen Yang, Wenhao Chai, Yi-Ling Chen, Vibhav Vineet, Qin Cai, Jenq-Neng Hwang
cs.AI

초록

비디오에서 인과적 사건 관계를 이해하고 세밀한 시간적 정착을 달성하는 것은 비전-언어 모델에게 여전히 도전적인 과제입니다. 기존 방법들은 시간적 해상도를 줄이기 위해 비디오 토큰을 압축하거나, 비디오를 분할되지 않은 스트림으로 처리하여 세밀한 사건 경계를 흐리게 하고 인과적 의존성 모델링을 제한합니다. 우리는 TEMPURA(Temporal Event Masked Prediction and Understanding for Reasoning in Action)를 제안합니다. TEMPURA는 비디오 시간적 이해를 강화하는 두 단계의 훈련 프레임워크입니다. TEMPURA는 먼저 효과적인 채우기 기법에서 영감을 얻어 누락된 사건을 재구성하고 밀집된 사건 주석으로부터 단계별 인과적 설명을 생성하기 위해 마스킹된 사건 예측 추론을 적용합니다. 그런 다음 TEMPURA는 비디오 분할과 밀집 캡셔닝을 수행하여 비디오를 겹치지 않는 사건으로 분해하고 상세한 시간 정렬 설명을 제공하는 방법을 학습합니다. 우리는 TEMPURA를 VER(우리가 정제한 대규모 데이터셋)로 훈련시켰습니다. VER은 1백만 개의 훈련 인스턴스와 50만 개의 비디오로 구성되어 있으며, 시간적으로 정렬된 사건 설명과 구조화된 추론 단계를 포함합니다. 시간적 정착 및 하이라이트 탐지 벤치마크에서의 실험은 TEMPURA가 강력한 베이스라인 모델을 능가함을 보여주며, 인과적 추론과 세밀한 시간적 분할을 통합하는 것이 비디오 이해를 개선한다는 것을 확인시켜 줍니다.
English
Understanding causal event relationships and achieving fine-grained temporal grounding in videos remain challenging for vision-language models. Existing methods either compress video tokens to reduce temporal resolution, or treat videos as unsegmented streams, which obscures fine-grained event boundaries and limits the modeling of causal dependencies. We propose TEMPURA (Temporal Event Masked Prediction and Understanding for Reasoning in Action), a two-stage training framework that enhances video temporal understanding. TEMPURA first applies masked event prediction reasoning to reconstruct missing events and generate step-by-step causal explanations from dense event annotations, drawing inspiration from effective infilling techniques. TEMPURA then learns to perform video segmentation and dense captioning to decompose videos into non-overlapping events with detailed, timestamp-aligned descriptions. We train TEMPURA on VER, a large-scale dataset curated by us that comprises 1M training instances and 500K videos with temporally aligned event descriptions and structured reasoning steps. Experiments on temporal grounding and highlight detection benchmarks demonstrate that TEMPURA outperforms strong baseline models, confirming that integrating causal reasoning with fine-grained temporal segmentation leads to improved video understanding.

Summary

AI-Generated Summary

PDF51May 6, 2025