Detecção Online de Limites Genéricos de Eventos
Online Generic Event Boundary Detection
October 8, 2025
Autores: Hyungrok Jung, Daneul Kim, Seunggyun Lim, Jeany Son, Jonghyun Choi
cs.AI
Resumo
A Detecção de Limites de Eventos Genéricos (GEBD) visa interpretar vídeos de longa duração através da perspectiva da percepção humana. No entanto, os métodos atuais de GEBD exigem o processamento completo dos quadros do vídeo para fazer previsões, ao contrário dos humanos, que processam dados de forma online e em tempo real. Para preencher essa lacuna, introduzimos uma nova tarefa, a Detecção de Limites de Eventos Genéricos Online (On-GEBD), que visa detectar os limites de eventos genéricos imediatamente em vídeos em streaming. Essa tarefa enfrenta desafios únicos de identificar mudanças sutis e sem taxonomia em eventos em tempo real, sem acesso a quadros futuros. Para enfrentar esses desafios, propomos um novo framework On-GEBD, chamado Estimator, inspirado na Teoria de Segmentação de Eventos (EST), que explica como os humanos segmentam atividades contínuas em eventos, aproveitando as discrepâncias entre informações previstas e reais. Nosso framework consiste em dois componentes principais: o Antecipador de Eventos Consistente (CEA) e o Discriminador de Limites Online (OBD). Especificamente, o CEA gera uma previsão do quadro futuro refletindo a dinâmica do evento atual com base apenas em quadros anteriores. Em seguida, o OBD mede o erro de previsão e ajusta adaptativamente o limite usando testes estatísticos sobre erros passados para capturar transições de eventos diversas e sutis. Resultados experimentais demonstram que o Estimator supera todas as baselines adaptadas de modelos recentes de compreensão de vídeo online e alcança desempenho comparável aos métodos anteriores de GEBD offline nos conjuntos de dados Kinetics-GEBD e TAPOS.
English
Generic Event Boundary Detection (GEBD) aims to interpret long-form videos
through the lens of human perception. However, current GEBD methods require
processing complete video frames to make predictions, unlike humans processing
data online and in real-time. To bridge this gap, we introduce a new task,
Online Generic Event Boundary Detection (On-GEBD), aiming to detect boundaries
of generic events immediately in streaming videos. This task faces unique
challenges of identifying subtle, taxonomy-free event changes in real-time,
without the access to future frames. To tackle these challenges, we propose a
novel On-GEBD framework, Estimator, inspired by Event Segmentation Theory (EST)
which explains how humans segment ongoing activity into events by leveraging
the discrepancies between predicted and actual information. Our framework
consists of two key components: the Consistent Event Anticipator (CEA), and the
Online Boundary Discriminator (OBD). Specifically, the CEA generates a
prediction of the future frame reflecting current event dynamics based solely
on prior frames. Then, the OBD measures the prediction error and adaptively
adjusts the threshold using statistical tests on past errors to capture
diverse, subtle event transitions. Experimental results demonstrate that
Estimator outperforms all baselines adapted from recent online video
understanding models and achieves performance comparable to prior offline-GEBD
methods on the Kinetics-GEBD and TAPOS datasets.