Обнаружение общих границ событий в режиме онлайн
Online Generic Event Boundary Detection
October 8, 2025
Авторы: Hyungrok Jung, Daneul Kim, Seunggyun Lim, Jeany Son, Jonghyun Choi
cs.AI
Аннотация
Обнаружение общих границ событий (Generic Event Boundary Detection, GEBD) направлено на интерпретацию длинных видео с точки зрения человеческого восприятия. Однако современные методы GEBD требуют обработки полных кадров видео для выполнения предсказаний, в отличие от людей, которые обрабатывают данные в режиме реального времени и онлайн. Чтобы устранить этот разрыв, мы представляем новую задачу — Обнаружение общих границ событий в режиме реального времени (Online Generic Event Boundary Detection, On-GEBD), цель которой — немедленно обнаруживать границы общих событий в потоковых видео. Эта задача сталкивается с уникальными вызовами, такими как идентификация тонких, неклассифицированных изменений событий в реальном времени без доступа к будущим кадрам. Для решения этих проблем мы предлагаем новый фреймворк On-GEBD, Estimator, вдохновленный Теорией сегментации событий (Event Segmentation Theory, EST), которая объясняет, как люди разделяют текущую активность на события, используя расхождения между предсказанными и фактическими данными. Наш фреймворк состоит из двух ключевых компонентов: Предсказателя согласованных событий (Consistent Event Anticipator, CEA) и Дискриминатора границ в режиме реального времени (Online Boundary Discriminator, OBD). В частности, CEA генерирует предсказание будущего кадра, отражающего текущую динамику событий, основываясь исключительно на предыдущих кадрах. Затем OBD измеряет ошибку предсказания и адаптивно корректирует порог, используя статистические тесты на основе прошлых ошибок, чтобы захватывать разнообразные, тонкие переходы между событиями. Экспериментальные результаты показывают, что Estimator превосходит все базовые модели, адаптированные из современных методов анализа видео в реальном времени, и достигает производительности, сопоставимой с предыдущими методами offline-GEBD на наборах данных Kinetics-GEBD и TAPOS.
English
Generic Event Boundary Detection (GEBD) aims to interpret long-form videos
through the lens of human perception. However, current GEBD methods require
processing complete video frames to make predictions, unlike humans processing
data online and in real-time. To bridge this gap, we introduce a new task,
Online Generic Event Boundary Detection (On-GEBD), aiming to detect boundaries
of generic events immediately in streaming videos. This task faces unique
challenges of identifying subtle, taxonomy-free event changes in real-time,
without the access to future frames. To tackle these challenges, we propose a
novel On-GEBD framework, Estimator, inspired by Event Segmentation Theory (EST)
which explains how humans segment ongoing activity into events by leveraging
the discrepancies between predicted and actual information. Our framework
consists of two key components: the Consistent Event Anticipator (CEA), and the
Online Boundary Discriminator (OBD). Specifically, the CEA generates a
prediction of the future frame reflecting current event dynamics based solely
on prior frames. Then, the OBD measures the prediction error and adaptively
adjusts the threshold using statistical tests on past errors to capture
diverse, subtle event transitions. Experimental results demonstrate that
Estimator outperforms all baselines adapted from recent online video
understanding models and achieves performance comparable to prior offline-GEBD
methods on the Kinetics-GEBD and TAPOS datasets.