Fusión multimodal imagen-evento ponderada por incertidumbre para la detección de anomalías en video

Resumen

La mayoría de los detectores de anomalías en video existentes dependen únicamente de fotogramas RGB, los cuales carecen de la resolución temporal necesaria para capturar señales de movimiento abrupto o transitorio, indicadores clave de eventos anómalos. Para abordar esta limitación, proponemos Fusión de Imagen-Evento para la Detección de Anomalías en Video (IEF-VAD, por sus siglas en inglés), un marco que sintetiza representaciones de eventos directamente a partir de videos RGB y las fusiona con características de imagen mediante un proceso fundamentado y consciente de la incertidumbre. El sistema (i) modela el ruido pesado del sensor con una verosimilitud de Student-t, derivando pesos de varianza inversa a nivel de valor mediante una aproximación de Laplace; (ii) aplica actualizaciones por fotograma al estilo Kalman para equilibrar las modalidades a lo largo del tiempo; y (iii) refina iterativamente el estado latente fusionado para eliminar el ruido residual entre modalidades. Sin necesidad de sensores de eventos dedicados ni etiquetas a nivel de fotograma, IEF-VAD establece un nuevo estado del arte en múltiples benchmarks de detección de anomalías del mundo real. Estos hallazgos destacan la utilidad de las representaciones sintéticas de eventos para enfatizar señales de movimiento que a menudo están subrepresentadas en los fotogramas RGB, permitiendo una comprensión precisa y robusta del video en diversas aplicaciones sin requerir sensores de eventos dedicados. El código y los modelos están disponibles en https://github.com/EavnJeong/IEF-VAD.

English

Most existing video anomaly detectors rely solely on RGB frames, which lack the temporal resolution needed to capture abrupt or transient motion cues, key indicators of anomalous events. To address this limitation, we propose Image-Event Fusion for Video Anomaly Detection (IEF-VAD), a framework that synthesizes event representations directly from RGB videos and fuses them with image features through a principled, uncertainty-aware process. The system (i) models heavy-tailed sensor noise with a Student`s-t likelihood, deriving value-level inverse-variance weights via a Laplace approximation; (ii) applies Kalman-style frame-wise updates to balance modalities over time; and (iii) iteratively refines the fused latent state to erase residual cross-modal noise. Without any dedicated event sensor or frame-level labels, IEF-VAD sets a new state of the art across multiple real-world anomaly detection benchmarks. These findings highlight the utility of synthetic event representations in emphasizing motion cues that are often underrepresented in RGB frames, enabling accurate and robust video understanding across diverse applications without requiring dedicated event sensors. Code and models are available at https://github.com/EavnJeong/IEF-VAD.

Fusión multimodal imagen-evento ponderada por incertidumbre para la detección de anomalías en video

Uncertainty-Weighted Image-Event Multimodal Fusion for Video Anomaly Detection

Resumen

Support