Online Generieke Gebeurtenisgrensdetectie
Online Generic Event Boundary Detection
October 8, 2025
Auteurs: Hyungrok Jung, Daneul Kim, Seunggyun Lim, Jeany Son, Jonghyun Choi
cs.AI
Samenvatting
Generic Event Boundary Detection (GEBD) heeft als doel lange video's te interpreteren vanuit het perspectief van menselijke waarneming. Huidige GEBD-methoden vereisen echter de verwerking van complete videobeelden om voorspellingen te doen, in tegenstelling tot mensen die gegevens online en in real-time verwerken. Om deze kloof te overbruggen, introduceren we een nieuwe taak, Online Generic Event Boundary Detection (On-GEBD), die als doel heeft om grenzen van generieke gebeurtenissen direct in streamingvideo's te detecteren. Deze taak wordt geconfronteerd met unieke uitdagingen, zoals het identificeren van subtiele, taxonomie-vrije gebeurtenisveranderingen in real-time, zonder toegang tot toekomstige beelden. Om deze uitdagingen aan te pakken, stellen we een nieuw On-GEBD-framework voor, genaamd Estimator, geïnspireerd door de Event Segmentation Theory (EST), die verklaart hoe mensen doorlopende activiteiten segmenteren in gebeurtenissen door gebruik te maken van de verschillen tussen voorspelde en werkelijke informatie. Ons framework bestaat uit twee belangrijke componenten: de Consistent Event Anticipator (CEA) en de Online Boundary Discriminator (OBD). Specifiek genereert de CEA een voorspelling van het toekomstige beeld dat de huidige gebeurtenisdynamiek weerspiegelt, uitsluitend gebaseerd op eerdere beelden. Vervolgens meet de OBD de voorspellingsfout en past deze de drempelwaarde adaptief aan met behulp van statistische tests op eerdere fouten om diverse, subtiele gebeurtenisovergangen vast te leggen. Experimentele resultaten tonen aan dat Estimator alle baseline-methoden overtreft die zijn aangepast uit recente online video-begripsmodellen en prestaties bereikt die vergelijkbaar zijn met eerdere offline-GEBD-methoden op de Kinetics-GEBD en TAPOS datasets.
English
Generic Event Boundary Detection (GEBD) aims to interpret long-form videos
through the lens of human perception. However, current GEBD methods require
processing complete video frames to make predictions, unlike humans processing
data online and in real-time. To bridge this gap, we introduce a new task,
Online Generic Event Boundary Detection (On-GEBD), aiming to detect boundaries
of generic events immediately in streaming videos. This task faces unique
challenges of identifying subtle, taxonomy-free event changes in real-time,
without the access to future frames. To tackle these challenges, we propose a
novel On-GEBD framework, Estimator, inspired by Event Segmentation Theory (EST)
which explains how humans segment ongoing activity into events by leveraging
the discrepancies between predicted and actual information. Our framework
consists of two key components: the Consistent Event Anticipator (CEA), and the
Online Boundary Discriminator (OBD). Specifically, the CEA generates a
prediction of the future frame reflecting current event dynamics based solely
on prior frames. Then, the OBD measures the prediction error and adaptively
adjusts the threshold using statistical tests on past errors to capture
diverse, subtle event transitions. Experimental results demonstrate that
Estimator outperforms all baselines adapted from recent online video
understanding models and achieves performance comparable to prior offline-GEBD
methods on the Kinetics-GEBD and TAPOS datasets.