Fusión multimodal imagen-evento ponderada por incertidumbre para la detección de anomalías en video
Uncertainty-Weighted Image-Event Multimodal Fusion for Video Anomaly Detection
May 5, 2025
Autores: Sungheon Jeong, Jihong Park, Mohsen Imani
cs.AI
Resumen
La mayoría de los detectores de anomalías en video existentes dependen únicamente de fotogramas RGB, los cuales carecen de la resolución temporal necesaria para capturar señales de movimiento abrupto o transitorio, indicadores clave de eventos anómalos. Para abordar esta limitación, proponemos Fusión de Imagen-Evento para la Detección de Anomalías en Video (IEF-VAD, por sus siglas en inglés), un marco que sintetiza representaciones de eventos directamente a partir de videos RGB y las fusiona con características de imagen mediante un proceso fundamentado y consciente de la incertidumbre. El sistema (i) modela el ruido pesado del sensor con una verosimilitud de Student-t, derivando pesos de varianza inversa a nivel de valor mediante una aproximación de Laplace; (ii) aplica actualizaciones por fotograma al estilo Kalman para equilibrar las modalidades a lo largo del tiempo; y (iii) refina iterativamente el estado latente fusionado para eliminar el ruido residual entre modalidades. Sin necesidad de sensores de eventos dedicados ni etiquetas a nivel de fotograma, IEF-VAD establece un nuevo estado del arte en múltiples benchmarks de detección de anomalías del mundo real. Estos hallazgos destacan la utilidad de las representaciones sintéticas de eventos para enfatizar señales de movimiento que a menudo están subrepresentadas en los fotogramas RGB, permitiendo una comprensión precisa y robusta del video en diversas aplicaciones sin requerir sensores de eventos dedicados. El código y los modelos están disponibles en https://github.com/EavnJeong/IEF-VAD.
English
Most existing video anomaly detectors rely solely on RGB frames, which lack
the temporal resolution needed to capture abrupt or transient motion cues, key
indicators of anomalous events. To address this limitation, we propose
Image-Event Fusion for Video Anomaly Detection (IEF-VAD), a framework that
synthesizes event representations directly from RGB videos and fuses them with
image features through a principled, uncertainty-aware process. The system (i)
models heavy-tailed sensor noise with a Student`s-t likelihood, deriving
value-level inverse-variance weights via a Laplace approximation; (ii) applies
Kalman-style frame-wise updates to balance modalities over time; and (iii)
iteratively refines the fused latent state to erase residual cross-modal noise.
Without any dedicated event sensor or frame-level labels, IEF-VAD sets a new
state of the art across multiple real-world anomaly detection benchmarks. These
findings highlight the utility of synthetic event representations in
emphasizing motion cues that are often underrepresented in RGB frames, enabling
accurate and robust video understanding across diverse applications without
requiring dedicated event sensors. Code and models are available at
https://github.com/EavnJeong/IEF-VAD.Summary
AI-Generated Summary