ChatPaper.aiChatPaper

AnyAnymaly: Rilevamento Personalizzabile di Anomalie Video Zero-Shot con LVLM

AnyAnomaly: Zero-Shot Customizable Video Anomaly Detection with LVLM

March 6, 2025
Autori: Sunghyun Ahn, Youngwan Jo, Kijung Lee, Sein Kwon, Inpyo Hong, Sanghyun Park
cs.AI

Abstract

Il rilevamento delle anomalie nei video (Video Anomaly Detection, VAD) è fondamentale per l'analisi e la sorveglianza video nell'ambito della visione artificiale. Tuttavia, i modelli VAD esistenti si basano su pattern normali appresi, il che rende difficile applicarli in ambienti diversi. Di conseguenza, gli utenti devono riaddestrare i modelli o sviluppare modelli di intelligenza artificiale separati per nuovi ambienti, il che richiede competenze nel machine learning, hardware ad alte prestazioni e un'ampia raccolta di dati, limitando così l'usabilità pratica del VAD. Per affrontare queste sfide, questo studio propone una tecnica di rilevamento delle anomalie nei video personalizzabile (Customizable Video Anomaly Detection, C-VAD) e il modello AnyAnomaly. Il C-VAD considera un testo definito dall'utente come un evento anomalo e rileva i fotogrammi contenenti un evento specificato in un video. Abbiamo implementato efficacemente AnyAnomaly utilizzando un sistema di risposta a domande visive contestuale senza dover effettuare il fine-tuning di un grande modello di linguaggio visivo. Per validare l'efficacia del modello proposto, abbiamo costruito dataset C-VAD e dimostrato la superiorità di AnyAnomaly. Inoltre, il nostro approccio ha mostrato prestazioni competitive sui dataset di benchmark VAD, raggiungendo risultati all'avanguardia sul dataset UBnormal e superando altri metodi in termini di generalizzazione su tutti i dataset. Il nostro codice è disponibile online all'indirizzo github.com/SkiddieAhn/Paper-AnyAnomaly.
English
Video anomaly detection (VAD) is crucial for video analysis and surveillance in computer vision. However, existing VAD models rely on learned normal patterns, which makes them difficult to apply to diverse environments. Consequently, users should retrain models or develop separate AI models for new environments, which requires expertise in machine learning, high-performance hardware, and extensive data collection, limiting the practical usability of VAD. To address these challenges, this study proposes customizable video anomaly detection (C-VAD) technique and the AnyAnomaly model. C-VAD considers user-defined text as an abnormal event and detects frames containing a specified event in a video. We effectively implemented AnyAnomaly using a context-aware visual question answering without fine-tuning the large vision language model. To validate the effectiveness of the proposed model, we constructed C-VAD datasets and demonstrated the superiority of AnyAnomaly. Furthermore, our approach showed competitive performance on VAD benchmark datasets, achieving state-of-the-art results on the UBnormal dataset and outperforming other methods in generalization across all datasets. Our code is available online at github.com/SkiddieAhn/Paper-AnyAnomaly.

Summary

AI-Generated Summary

PDF32March 10, 2025