ChatPaper.aiChatPaper

Detección de Límites de Eventos Genéricos en Línea

Online Generic Event Boundary Detection

October 8, 2025
Autores: Hyungrok Jung, Daneul Kim, Seunggyun Lim, Jeany Son, Jonghyun Choi
cs.AI

Resumen

La Detección de Límites de Eventos Genéricos (GEBD, por sus siglas en inglés) tiene como objetivo interpretar videos de larga duración desde la perspectiva de la percepción humana. Sin embargo, los métodos actuales de GEBD requieren procesar todos los fotogramas del video para realizar predicciones, a diferencia de los humanos, que procesan los datos en línea y en tiempo real. Para cerrar esta brecha, presentamos una nueva tarea, la Detección de Límites de Eventos Genéricos en Línea (On-GEBD), que busca detectar los límites de eventos genéricos de inmediato en videos en streaming. Esta tarea enfrenta desafíos únicos, como identificar cambios sutiles y libres de taxonomía en eventos en tiempo real, sin acceso a fotogramas futuros. Para abordar estos desafíos, proponemos un nuevo marco de On-GEBD, llamado Estimator, inspirado en la Teoría de Segmentación de Eventos (EST, por sus siglas en inglés), que explica cómo los humanos segmentan actividades en curso en eventos aprovechando las discrepancias entre la información predicha y la real. Nuestro marco consta de dos componentes clave: el Anticipador de Eventos Consistente (CEA, por sus siglas en inglés) y el Discriminador de Límites en Línea (OBD, por sus siglas en inglés). Específicamente, el CEA genera una predicción del fotograma futuro que refleja la dinámica del evento actual basándose únicamente en fotogramas previos. Luego, el OBD mide el error de predicción y ajusta adaptativamente el umbral utilizando pruebas estadísticas sobre errores pasados para capturar transiciones de eventos diversas y sutiles. Los resultados experimentales demuestran que Estimator supera a todos los modelos de referencia adaptados de modelos recientes de comprensión de video en línea y alcanza un rendimiento comparable a los métodos previos de GEBD fuera de línea en los conjuntos de datos Kinetics-GEBD y TAPOS.
English
Generic Event Boundary Detection (GEBD) aims to interpret long-form videos through the lens of human perception. However, current GEBD methods require processing complete video frames to make predictions, unlike humans processing data online and in real-time. To bridge this gap, we introduce a new task, Online Generic Event Boundary Detection (On-GEBD), aiming to detect boundaries of generic events immediately in streaming videos. This task faces unique challenges of identifying subtle, taxonomy-free event changes in real-time, without the access to future frames. To tackle these challenges, we propose a novel On-GEBD framework, Estimator, inspired by Event Segmentation Theory (EST) which explains how humans segment ongoing activity into events by leveraging the discrepancies between predicted and actual information. Our framework consists of two key components: the Consistent Event Anticipator (CEA), and the Online Boundary Discriminator (OBD). Specifically, the CEA generates a prediction of the future frame reflecting current event dynamics based solely on prior frames. Then, the OBD measures the prediction error and adaptively adjusts the threshold using statistical tests on past errors to capture diverse, subtle event transitions. Experimental results demonstrate that Estimator outperforms all baselines adapted from recent online video understanding models and achieves performance comparable to prior offline-GEBD methods on the Kinetics-GEBD and TAPOS datasets.
PDF32October 9, 2025