AnyAnomaly: Detecção de Anomalias em Vídeo Personalizável e Zero-Shot com LVLM
AnyAnomaly: Zero-Shot Customizable Video Anomaly Detection with LVLM
March 6, 2025
Autores: Sunghyun Ahn, Youngwan Jo, Kijung Lee, Sein Kwon, Inpyo Hong, Sanghyun Park
cs.AI
Resumo
A detecção de anomalias em vídeo (VAD) é crucial para a análise de vídeo e vigilância em visão computacional. No entanto, os modelos existentes de VAD dependem de padrões normais aprendidos, o que dificulta sua aplicação em ambientes diversos. Consequentemente, os usuários precisam retreinar os modelos ou desenvolver modelos de IA separados para novos ambientes, o que exige expertise em aprendizado de máquina, hardware de alto desempenho e coleta extensiva de dados, limitando a usabilidade prática da VAD. Para enfrentar esses desafios, este estudo propõe a técnica de detecção de anomalias em vídeo personalizável (C-VAD) e o modelo AnyAnomaly. O C-VAD considera texto definido pelo usuário como um evento anormal e detecta quadros que contêm um evento especificado em um vídeo. Implementamos o AnyAnomaly de forma eficaz usando uma abordagem de resposta visual contextualizada sem ajuste fino do grande modelo de linguagem visual. Para validar a eficácia do modelo proposto, construímos conjuntos de dados C-VAD e demonstramos a superioridade do AnyAnomaly. Além disso, nossa abordagem mostrou desempenho competitivo em conjuntos de dados de referência para VAD, alcançando resultados de ponta no conjunto de dados UBnormal e superando outros métodos em generalização em todos os conjuntos de dados. Nosso código está disponível online em github.com/SkiddieAhn/Paper-AnyAnomaly.
English
Video anomaly detection (VAD) is crucial for video analysis and surveillance
in computer vision. However, existing VAD models rely on learned normal
patterns, which makes them difficult to apply to diverse environments.
Consequently, users should retrain models or develop separate AI models for new
environments, which requires expertise in machine learning, high-performance
hardware, and extensive data collection, limiting the practical usability of
VAD. To address these challenges, this study proposes customizable video
anomaly detection (C-VAD) technique and the AnyAnomaly model. C-VAD considers
user-defined text as an abnormal event and detects frames containing a
specified event in a video. We effectively implemented AnyAnomaly using a
context-aware visual question answering without fine-tuning the large vision
language model. To validate the effectiveness of the proposed model, we
constructed C-VAD datasets and demonstrated the superiority of AnyAnomaly.
Furthermore, our approach showed competitive performance on VAD benchmark
datasets, achieving state-of-the-art results on the UBnormal dataset and
outperforming other methods in generalization across all datasets. Our code is
available online at github.com/SkiddieAhn/Paper-AnyAnomaly.Summary
AI-Generated Summary