ChatPaper.aiChatPaper

AnyAnomaly: Detecção de Anomalias em Vídeo Personalizável e Zero-Shot com LVLM

AnyAnomaly: Zero-Shot Customizable Video Anomaly Detection with LVLM

March 6, 2025
Autores: Sunghyun Ahn, Youngwan Jo, Kijung Lee, Sein Kwon, Inpyo Hong, Sanghyun Park
cs.AI

Resumo

A detecção de anomalias em vídeo (VAD) é crucial para a análise de vídeo e vigilância em visão computacional. No entanto, os modelos existentes de VAD dependem de padrões normais aprendidos, o que dificulta sua aplicação em ambientes diversos. Consequentemente, os usuários precisam retreinar os modelos ou desenvolver modelos de IA separados para novos ambientes, o que exige expertise em aprendizado de máquina, hardware de alto desempenho e coleta extensiva de dados, limitando a usabilidade prática da VAD. Para enfrentar esses desafios, este estudo propõe a técnica de detecção de anomalias em vídeo personalizável (C-VAD) e o modelo AnyAnomaly. O C-VAD considera texto definido pelo usuário como um evento anormal e detecta quadros que contêm um evento especificado em um vídeo. Implementamos o AnyAnomaly de forma eficaz usando uma abordagem de resposta visual contextualizada sem ajuste fino do grande modelo de linguagem visual. Para validar a eficácia do modelo proposto, construímos conjuntos de dados C-VAD e demonstramos a superioridade do AnyAnomaly. Além disso, nossa abordagem mostrou desempenho competitivo em conjuntos de dados de referência para VAD, alcançando resultados de ponta no conjunto de dados UBnormal e superando outros métodos em generalização em todos os conjuntos de dados. Nosso código está disponível online em github.com/SkiddieAhn/Paper-AnyAnomaly.
English
Video anomaly detection (VAD) is crucial for video analysis and surveillance in computer vision. However, existing VAD models rely on learned normal patterns, which makes them difficult to apply to diverse environments. Consequently, users should retrain models or develop separate AI models for new environments, which requires expertise in machine learning, high-performance hardware, and extensive data collection, limiting the practical usability of VAD. To address these challenges, this study proposes customizable video anomaly detection (C-VAD) technique and the AnyAnomaly model. C-VAD considers user-defined text as an abnormal event and detects frames containing a specified event in a video. We effectively implemented AnyAnomaly using a context-aware visual question answering without fine-tuning the large vision language model. To validate the effectiveness of the proposed model, we constructed C-VAD datasets and demonstrated the superiority of AnyAnomaly. Furthermore, our approach showed competitive performance on VAD benchmark datasets, achieving state-of-the-art results on the UBnormal dataset and outperforming other methods in generalization across all datasets. Our code is available online at github.com/SkiddieAhn/Paper-AnyAnomaly.

Summary

AI-Generated Summary

PDF32March 10, 2025