AnyAnomaly : Détection d'anomalies vidéo personnalisable sans apprentissage avec LVLM
AnyAnomaly: Zero-Shot Customizable Video Anomaly Detection with LVLM
March 6, 2025
Auteurs: Sunghyun Ahn, Youngwan Jo, Kijung Lee, Sein Kwon, Inpyo Hong, Sanghyun Park
cs.AI
Résumé
La détection d'anomalies vidéo (VAD) est cruciale pour l'analyse vidéo et la surveillance en vision par ordinateur. Cependant, les modèles de VAD existants reposent sur des modèles normaux appris, ce qui les rend difficiles à appliquer à des environnements divers. Par conséquent, les utilisateurs doivent réentraîner les modèles ou développer des modèles d'IA distincts pour de nouveaux environnements, ce qui nécessite une expertise en apprentissage automatique, du matériel haute performance et une collecte de données extensive, limitant ainsi l'utilité pratique de la VAD. Pour relever ces défis, cette étude propose une technique de détection d'anomalies vidéo personnalisable (C-VAD) et le modèle AnyAnomaly. La C-VAD considère un texte défini par l'utilisateur comme un événement anormal et détecte les images contenant un événement spécifié dans une vidéo. Nous avons efficacement implémenté AnyAnomaly en utilisant un système de question-réponse visuel contextuel sans ajustement fin du grand modèle de langage visuel. Pour valider l'efficacité du modèle proposé, nous avons construit des ensembles de données C-VAD et démontré la supériorité d'AnyAnomaly. De plus, notre approche a montré des performances compétitives sur les ensembles de données de référence en VAD, atteignant des résultats de pointe sur le jeu de données UBnormal et surpassant d'autres méthodes en termes de généralisation sur tous les ensembles de données. Notre code est disponible en ligne sur github.com/SkiddieAhn/Paper-AnyAnomaly.
English
Video anomaly detection (VAD) is crucial for video analysis and surveillance
in computer vision. However, existing VAD models rely on learned normal
patterns, which makes them difficult to apply to diverse environments.
Consequently, users should retrain models or develop separate AI models for new
environments, which requires expertise in machine learning, high-performance
hardware, and extensive data collection, limiting the practical usability of
VAD. To address these challenges, this study proposes customizable video
anomaly detection (C-VAD) technique and the AnyAnomaly model. C-VAD considers
user-defined text as an abnormal event and detects frames containing a
specified event in a video. We effectively implemented AnyAnomaly using a
context-aware visual question answering without fine-tuning the large vision
language model. To validate the effectiveness of the proposed model, we
constructed C-VAD datasets and demonstrated the superiority of AnyAnomaly.
Furthermore, our approach showed competitive performance on VAD benchmark
datasets, achieving state-of-the-art results on the UBnormal dataset and
outperforming other methods in generalization across all datasets. Our code is
available online at github.com/SkiddieAhn/Paper-AnyAnomaly.Summary
AI-Generated Summary