ChatPaper.aiChatPaper

Détection en ligne des limites génériques d'événements

Online Generic Event Boundary Detection

October 8, 2025
papers.authors: Hyungrok Jung, Daneul Kim, Seunggyun Lim, Jeany Son, Jonghyun Choi
cs.AI

papers.abstract

La détection générique des limites d'événements (GEBD) vise à interpréter les vidéos de longue durée à travers le prisme de la perception humaine. Cependant, les méthodes actuelles de GEBD nécessitent de traiter l'intégralité des images vidéo pour effectuer des prédictions, contrairement aux humains qui traitent les données en ligne et en temps réel. Pour combler cet écart, nous introduisons une nouvelle tâche, la détection générique des limites d'événements en ligne (On-GEBD), visant à détecter immédiatement les limites d'événements génériques dans les vidéos en flux continu. Cette tâche présente des défis uniques, tels que l'identification en temps réel de changements d'événements subtils et indépendants d'une taxonomie, sans accès aux images futures. Pour relever ces défis, nous proposons un nouveau cadre On-GEBD, Estimator, inspiré par la théorie de la segmentation d'événements (EST), qui explique comment les humains segmentent les activités en cours en exploitant les écarts entre les informations prédites et réelles. Notre cadre se compose de deux éléments clés : l'Anticipateur d'Événements Cohérents (CEA) et le Discriminateur de Limites en Ligne (OBD). Plus précisément, le CEA génère une prédiction de l'image future reflétant la dynamique actuelle de l'événement en se basant uniquement sur les images précédentes. Ensuite, l'OBD mesure l'erreur de prédiction et ajuste de manière adaptative le seuil en utilisant des tests statistiques sur les erreurs passées pour capturer des transitions d'événements diverses et subtiles. Les résultats expérimentaux montrent qu'Estimator surpasse toutes les méthodes de référence adaptées des modèles récents de compréhension vidéo en ligne et atteint des performances comparables aux méthodes GEBD hors ligne précédentes sur les ensembles de données Kinetics-GEBD et TAPOS.
English
Generic Event Boundary Detection (GEBD) aims to interpret long-form videos through the lens of human perception. However, current GEBD methods require processing complete video frames to make predictions, unlike humans processing data online and in real-time. To bridge this gap, we introduce a new task, Online Generic Event Boundary Detection (On-GEBD), aiming to detect boundaries of generic events immediately in streaming videos. This task faces unique challenges of identifying subtle, taxonomy-free event changes in real-time, without the access to future frames. To tackle these challenges, we propose a novel On-GEBD framework, Estimator, inspired by Event Segmentation Theory (EST) which explains how humans segment ongoing activity into events by leveraging the discrepancies between predicted and actual information. Our framework consists of two key components: the Consistent Event Anticipator (CEA), and the Online Boundary Discriminator (OBD). Specifically, the CEA generates a prediction of the future frame reflecting current event dynamics based solely on prior frames. Then, the OBD measures the prediction error and adaptively adjusts the threshold using statistical tests on past errors to capture diverse, subtle event transitions. Experimental results demonstrate that Estimator outperforms all baselines adapted from recent online video understanding models and achieves performance comparable to prior offline-GEBD methods on the Kinetics-GEBD and TAPOS datasets.
PDF32October 9, 2025