ChatPaper.aiChatPaper

비디오 이상 탐지를 위한 불확실성 가중 이미지-이벤트 다중모달 융합

Uncertainty-Weighted Image-Event Multimodal Fusion for Video Anomaly Detection

May 5, 2025
저자: Sungheon Jeong, Jihong Park, Mohsen Imani
cs.AI

초록

대부분의 기존 비디오 이상 탐지기는 RGB 프레임에만 의존하며, 이는 이상 이벤트의 주요 지표인 급격하거나 일시적인 움직임 단서를 포착하는 데 필요한 시간적 해상도가 부족합니다. 이러한 한계를 해결하기 위해, 우리는 RGB 비디오에서 직접 이벤트 표현을 합성하고 이를 이미지 특징과 원칙적이고 불확실성 인식 프로세스를 통해 융합하는 Image-Event Fusion for Video Anomaly Detection (IEF-VAD) 프레임워크를 제안합니다. 이 시스템은 (i) Student's-t 가능도를 사용하여 센서 노이즈의 두꺼운 꼬리를 모델링하고 Laplace 근사를 통해 값 수준의 역분산 가중치를 도출하며, (ii) 시간에 걸쳐 모달리티를 균형 있게 조정하기 위해 Kalman 스타일의 프레임 단위 업데이트를 적용하고, (iii) 잔여 교차 모달 노이즈를 제거하기 위해 융합된 잠재 상태를 반복적으로 개선합니다. 전용 이벤트 센서나 프레임 수준 레이블 없이도 IEF-VAD는 여러 실제 이상 탐지 벤치마크에서 새로운 최첨단 기술을 설정합니다. 이러한 결과는 RGB 프레임에서 종종 과소 표현되는 움직임 단서를 강조하는 합성 이벤트 표현의 유용성을 강조하며, 전용 이벤트 센서 없이도 다양한 응용 프로그램에서 정확하고 견고한 비디오 이해를 가능하게 합니다. 코드와 모델은 https://github.com/EavnJeong/IEF-VAD에서 확인할 수 있습니다.
English
Most existing video anomaly detectors rely solely on RGB frames, which lack the temporal resolution needed to capture abrupt or transient motion cues, key indicators of anomalous events. To address this limitation, we propose Image-Event Fusion for Video Anomaly Detection (IEF-VAD), a framework that synthesizes event representations directly from RGB videos and fuses them with image features through a principled, uncertainty-aware process. The system (i) models heavy-tailed sensor noise with a Student`s-t likelihood, deriving value-level inverse-variance weights via a Laplace approximation; (ii) applies Kalman-style frame-wise updates to balance modalities over time; and (iii) iteratively refines the fused latent state to erase residual cross-modal noise. Without any dedicated event sensor or frame-level labels, IEF-VAD sets a new state of the art across multiple real-world anomaly detection benchmarks. These findings highlight the utility of synthetic event representations in emphasizing motion cues that are often underrepresented in RGB frames, enabling accurate and robust video understanding across diverse applications without requiring dedicated event sensors. Code and models are available at https://github.com/EavnJeong/IEF-VAD.

Summary

AI-Generated Summary

PDF21May 8, 2025