AnyAnomaly: Nul-Shot Aanpasbare Video Anomaliedetectie met LVLM
AnyAnomaly: Zero-Shot Customizable Video Anomaly Detection with LVLM
March 6, 2025
Auteurs: Sunghyun Ahn, Youngwan Jo, Kijung Lee, Sein Kwon, Inpyo Hong, Sanghyun Park
cs.AI
Samenvatting
Video-anomaliedetectie (VAD) is cruciaal voor videoanalyse en bewaking in computervisie. Bestaande VAD-modellen zijn echter afhankelijk van aangeleerde normale patronen, waardoor ze moeilijk toepasbaar zijn in diverse omgevingen. Gebruikers moeten daarom modellen opnieuw trainen of aparte AI-modellen ontwikkelen voor nieuwe omgevingen, wat expertise in machine learning, hoogwaardige hardware en uitgebreide datacollectie vereist. Dit beperkt de praktische bruikbaarheid van VAD. Om deze uitdagingen aan te pakken, stelt deze studie de aanpasbare video-anomaliedetectie (C-VAD) techniek en het AnyAnomaly-model voor. C-VAD beschouwt door de gebruiker gedefinieerde tekst als een abnormale gebeurtenis en detecteert frames die een gespecificeerde gebeurtenis in een video bevatten. We hebben AnyAnomaly effectief geïmplementeerd met behulp van contextbewuste visuele vraagbeantwoording zonder het grote visuele taalmodel te fine-tunen. Om de effectiviteit van het voorgestelde model te valideren, hebben we C-VAD-datasets geconstrueerd en de superioriteit van AnyAnomaly aangetoond. Bovendien toonde onze aanpak competitieve prestaties op VAD-benchmarkdatasets, waarbij state-of-the-art resultaten werden behaald op de UBnormal-dataset en andere methoden werden overtroffen in generalisatie over alle datasets. Onze code is online beschikbaar op github.com/SkiddieAhn/Paper-AnyAnomaly.
English
Video anomaly detection (VAD) is crucial for video analysis and surveillance
in computer vision. However, existing VAD models rely on learned normal
patterns, which makes them difficult to apply to diverse environments.
Consequently, users should retrain models or develop separate AI models for new
environments, which requires expertise in machine learning, high-performance
hardware, and extensive data collection, limiting the practical usability of
VAD. To address these challenges, this study proposes customizable video
anomaly detection (C-VAD) technique and the AnyAnomaly model. C-VAD considers
user-defined text as an abnormal event and detects frames containing a
specified event in a video. We effectively implemented AnyAnomaly using a
context-aware visual question answering without fine-tuning the large vision
language model. To validate the effectiveness of the proposed model, we
constructed C-VAD datasets and demonstrated the superiority of AnyAnomaly.
Furthermore, our approach showed competitive performance on VAD benchmark
datasets, achieving state-of-the-art results on the UBnormal dataset and
outperforming other methods in generalization across all datasets. Our code is
available online at github.com/SkiddieAhn/Paper-AnyAnomaly.Summary
AI-Generated Summary