不確実性を考慮した画像-イベントマルチモーダル融合による動画異常検出
Uncertainty-Weighted Image-Event Multimodal Fusion for Video Anomaly Detection
May 5, 2025
著者: Sungheon Jeong, Jihong Park, Mohsen Imani
cs.AI
要旨
既存のビデオ異常検出器の多くはRGBフレームのみに依存しており、異常事象の重要な指標である急激または一時的な動きの手がかりを捉えるのに必要な時間分解能が不足しています。この制限を解決するため、本研究ではRGBビデオから直接イベント表現を合成し、画像特徴と不確実性を考慮した原則に基づくプロセスで融合するImage-Event Fusion for Video Anomaly Detection (IEF-VAD)フレームワークを提案します。このシステムは、(i) スチューデントのt分布尤度を用いてセンサノイズの重い裾をモデル化し、ラプラス近似を通じて値レベルの逆分散重みを導出します。(ii) カルマンフィルタスタイルのフレーム単位の更新を適用し、時間経過に伴うモダリティのバランスを取ります。(iii) 融合された潜在状態を反復的に洗練し、残存するクロスモーダルノイズを除去します。専用のイベントセンサやフレームレベルのラベルを一切使用せずに、IEF-VADは複数の実世界の異常検出ベンチマークで新たな最先端の性能を達成しました。これらの結果は、RGBフレームでは十分に表現されないことが多い動きの手がかりを強調する合成イベント表現の有用性を示しており、専用のイベントセンサを必要とせずに多様なアプリケーションにおいて正確かつ堅牢なビデオ理解を可能にします。コードとモデルはhttps://github.com/EavnJeong/IEF-VADで公開されています。
English
Most existing video anomaly detectors rely solely on RGB frames, which lack
the temporal resolution needed to capture abrupt or transient motion cues, key
indicators of anomalous events. To address this limitation, we propose
Image-Event Fusion for Video Anomaly Detection (IEF-VAD), a framework that
synthesizes event representations directly from RGB videos and fuses them with
image features through a principled, uncertainty-aware process. The system (i)
models heavy-tailed sensor noise with a Student`s-t likelihood, deriving
value-level inverse-variance weights via a Laplace approximation; (ii) applies
Kalman-style frame-wise updates to balance modalities over time; and (iii)
iteratively refines the fused latent state to erase residual cross-modal noise.
Without any dedicated event sensor or frame-level labels, IEF-VAD sets a new
state of the art across multiple real-world anomaly detection benchmarks. These
findings highlight the utility of synthetic event representations in
emphasizing motion cues that are often underrepresented in RGB frames, enabling
accurate and robust video understanding across diverse applications without
requiring dedicated event sensors. Code and models are available at
https://github.com/EavnJeong/IEF-VAD.Summary
AI-Generated Summary