ChatPaper.aiChatPaper

Online-Generische Ereignisgrenzenerkennung

Online Generic Event Boundary Detection

October 8, 2025
papers.authors: Hyungrok Jung, Daneul Kim, Seunggyun Lim, Jeany Son, Jonghyun Choi
cs.AI

papers.abstract

Die Erkennung generischer Ereignisgrenzen (Generic Event Boundary Detection, GEBD) zielt darauf ab, lange Videos aus der Perspektive der menschlichen Wahrnehmung zu interpretieren. Allerdings erfordern aktuelle GEBD-Methoden die Verarbeitung vollständiger Videobilder, um Vorhersagen zu treffen, im Gegensatz zur menschlichen Fähigkeit, Daten online und in Echtzeit zu verarbeiten. Um diese Lücke zu schließen, führen wir eine neue Aufgabe ein, die Online-Generische Ereignisgrenzenerkennung (On-GEBD), die darauf abzielt, Grenzen generischer Ereignisse unmittelbar in Streaming-Videos zu erkennen. Diese Aufgabe stellt einzigartige Herausforderungen dar, wie die Identifizierung subtiler, taxonomiefreier Ereignisänderungen in Echtzeit ohne Zugriff auf zukünftige Bilder. Um diese Herausforderungen zu bewältigen, schlagen wir ein neuartiges On-GEBD-Framework vor, den Estimator, der von der Ereignissegmentierungstheorie (Event Segmentation Theory, EST) inspiriert ist. Diese Theorie erklärt, wie Menschen laufende Aktivitäten in Ereignisse segmentieren, indem sie die Diskrepanzen zwischen vorhergesagten und tatsächlichen Informationen nutzen. Unser Framework besteht aus zwei Schlüsselkomponenten: dem Consistent Event Anticipator (CEA) und dem Online Boundary Discriminator (OBD). Konkret generiert der CEA eine Vorhersage des zukünftigen Bildes, das die aktuelle Ereignisdynamik basierend ausschließlich auf vorherigen Bildern widerspiegelt. Anschließend misst der OBD den Vorhersagefehler und passt den Schwellenwert adaptiv mithilfe statistischer Tests auf vergangene Fehler an, um vielfältige, subtile Ereignisübergänge zu erfassen. Experimentelle Ergebnisse zeigen, dass der Estimator alle Baselines, die aus aktuellen Online-Video-Verständnismodellen adaptiert wurden, übertrifft und eine Leistung erzielt, die mit früheren Offline-GEBD-Methoden auf den Datensätzen Kinetics-GEBD und TAPOS vergleichbar ist.
English
Generic Event Boundary Detection (GEBD) aims to interpret long-form videos through the lens of human perception. However, current GEBD methods require processing complete video frames to make predictions, unlike humans processing data online and in real-time. To bridge this gap, we introduce a new task, Online Generic Event Boundary Detection (On-GEBD), aiming to detect boundaries of generic events immediately in streaming videos. This task faces unique challenges of identifying subtle, taxonomy-free event changes in real-time, without the access to future frames. To tackle these challenges, we propose a novel On-GEBD framework, Estimator, inspired by Event Segmentation Theory (EST) which explains how humans segment ongoing activity into events by leveraging the discrepancies between predicted and actual information. Our framework consists of two key components: the Consistent Event Anticipator (CEA), and the Online Boundary Discriminator (OBD). Specifically, the CEA generates a prediction of the future frame reflecting current event dynamics based solely on prior frames. Then, the OBD measures the prediction error and adaptively adjusts the threshold using statistical tests on past errors to capture diverse, subtle event transitions. Experimental results demonstrate that Estimator outperforms all baselines adapted from recent online video understanding models and achieves performance comparable to prior offline-GEBD methods on the Kinetics-GEBD and TAPOS datasets.
PDF32October 9, 2025