ChatPaper.aiChatPaper

Online Generieke Gebeurtenisgrensdetectie

Online Generic Event Boundary Detection

October 8, 2025
Auteurs: Hyungrok Jung, Daneul Kim, Seunggyun Lim, Jeany Son, Jonghyun Choi
cs.AI

Samenvatting

Generic Event Boundary Detection (GEBD) heeft als doel lange video's te interpreteren vanuit het perspectief van menselijke waarneming. Huidige GEBD-methoden vereisen echter de verwerking van complete videobeelden om voorspellingen te doen, in tegenstelling tot mensen die gegevens online en in real-time verwerken. Om deze kloof te overbruggen, introduceren we een nieuwe taak, Online Generic Event Boundary Detection (On-GEBD), die als doel heeft om grenzen van generieke gebeurtenissen direct in streamingvideo's te detecteren. Deze taak wordt geconfronteerd met unieke uitdagingen, zoals het identificeren van subtiele, taxonomie-vrije gebeurtenisveranderingen in real-time, zonder toegang tot toekomstige beelden. Om deze uitdagingen aan te pakken, stellen we een nieuw On-GEBD-framework voor, genaamd Estimator, geïnspireerd door de Event Segmentation Theory (EST), die verklaart hoe mensen doorlopende activiteiten segmenteren in gebeurtenissen door gebruik te maken van de verschillen tussen voorspelde en werkelijke informatie. Ons framework bestaat uit twee belangrijke componenten: de Consistent Event Anticipator (CEA) en de Online Boundary Discriminator (OBD). Specifiek genereert de CEA een voorspelling van het toekomstige beeld dat de huidige gebeurtenisdynamiek weerspiegelt, uitsluitend gebaseerd op eerdere beelden. Vervolgens meet de OBD de voorspellingsfout en past deze de drempelwaarde adaptief aan met behulp van statistische tests op eerdere fouten om diverse, subtiele gebeurtenisovergangen vast te leggen. Experimentele resultaten tonen aan dat Estimator alle baseline-methoden overtreft die zijn aangepast uit recente online video-begripsmodellen en prestaties bereikt die vergelijkbaar zijn met eerdere offline-GEBD-methoden op de Kinetics-GEBD en TAPOS datasets.
English
Generic Event Boundary Detection (GEBD) aims to interpret long-form videos through the lens of human perception. However, current GEBD methods require processing complete video frames to make predictions, unlike humans processing data online and in real-time. To bridge this gap, we introduce a new task, Online Generic Event Boundary Detection (On-GEBD), aiming to detect boundaries of generic events immediately in streaming videos. This task faces unique challenges of identifying subtle, taxonomy-free event changes in real-time, without the access to future frames. To tackle these challenges, we propose a novel On-GEBD framework, Estimator, inspired by Event Segmentation Theory (EST) which explains how humans segment ongoing activity into events by leveraging the discrepancies between predicted and actual information. Our framework consists of two key components: the Consistent Event Anticipator (CEA), and the Online Boundary Discriminator (OBD). Specifically, the CEA generates a prediction of the future frame reflecting current event dynamics based solely on prior frames. Then, the OBD measures the prediction error and adaptively adjusts the threshold using statistical tests on past errors to capture diverse, subtle event transitions. Experimental results demonstrate that Estimator outperforms all baselines adapted from recent online video understanding models and achieves performance comparable to prior offline-GEBD methods on the Kinetics-GEBD and TAPOS datasets.
PDF32October 9, 2025