ChatPaper.aiChatPaper

Detecção Online de Limites Genéricos de Eventos

Online Generic Event Boundary Detection

October 8, 2025
Autores: Hyungrok Jung, Daneul Kim, Seunggyun Lim, Jeany Son, Jonghyun Choi
cs.AI

Resumo

A Detecção de Limites de Eventos Genéricos (GEBD) visa interpretar vídeos de longa duração através da perspectiva da percepção humana. No entanto, os métodos atuais de GEBD exigem o processamento completo dos quadros do vídeo para fazer previsões, ao contrário dos humanos, que processam dados de forma online e em tempo real. Para preencher essa lacuna, introduzimos uma nova tarefa, a Detecção de Limites de Eventos Genéricos Online (On-GEBD), que visa detectar os limites de eventos genéricos imediatamente em vídeos em streaming. Essa tarefa enfrenta desafios únicos de identificar mudanças sutis e sem taxonomia em eventos em tempo real, sem acesso a quadros futuros. Para enfrentar esses desafios, propomos um novo framework On-GEBD, chamado Estimator, inspirado na Teoria de Segmentação de Eventos (EST), que explica como os humanos segmentam atividades contínuas em eventos, aproveitando as discrepâncias entre informações previstas e reais. Nosso framework consiste em dois componentes principais: o Antecipador de Eventos Consistente (CEA) e o Discriminador de Limites Online (OBD). Especificamente, o CEA gera uma previsão do quadro futuro refletindo a dinâmica do evento atual com base apenas em quadros anteriores. Em seguida, o OBD mede o erro de previsão e ajusta adaptativamente o limite usando testes estatísticos sobre erros passados para capturar transições de eventos diversas e sutis. Resultados experimentais demonstram que o Estimator supera todas as baselines adaptadas de modelos recentes de compreensão de vídeo online e alcança desempenho comparável aos métodos anteriores de GEBD offline nos conjuntos de dados Kinetics-GEBD e TAPOS.
English
Generic Event Boundary Detection (GEBD) aims to interpret long-form videos through the lens of human perception. However, current GEBD methods require processing complete video frames to make predictions, unlike humans processing data online and in real-time. To bridge this gap, we introduce a new task, Online Generic Event Boundary Detection (On-GEBD), aiming to detect boundaries of generic events immediately in streaming videos. This task faces unique challenges of identifying subtle, taxonomy-free event changes in real-time, without the access to future frames. To tackle these challenges, we propose a novel On-GEBD framework, Estimator, inspired by Event Segmentation Theory (EST) which explains how humans segment ongoing activity into events by leveraging the discrepancies between predicted and actual information. Our framework consists of two key components: the Consistent Event Anticipator (CEA), and the Online Boundary Discriminator (OBD). Specifically, the CEA generates a prediction of the future frame reflecting current event dynamics based solely on prior frames. Then, the OBD measures the prediction error and adaptively adjusts the threshold using statistical tests on past errors to capture diverse, subtle event transitions. Experimental results demonstrate that Estimator outperforms all baselines adapted from recent online video understanding models and achieves performance comparable to prior offline-GEBD methods on the Kinetics-GEBD and TAPOS datasets.
PDF32October 9, 2025