AnyAnomaly: Detección de Anomalías en Video Personalizable sin Ejemplos Previos con LVLM
AnyAnomaly: Zero-Shot Customizable Video Anomaly Detection with LVLM
March 6, 2025
Autores: Sunghyun Ahn, Youngwan Jo, Kijung Lee, Sein Kwon, Inpyo Hong, Sanghyun Park
cs.AI
Resumen
La detección de anomalías en video (VAD, por sus siglas en inglés) es crucial para el análisis y la vigilancia de videos en visión por computadora. Sin embargo, los modelos existentes de VAD dependen de patrones normales aprendidos, lo que dificulta su aplicación en entornos diversos. Como consecuencia, los usuarios deben reentrenar los modelos o desarrollar modelos de IA separados para nuevos entornos, lo que requiere experiencia en aprendizaje automático, hardware de alto rendimiento y una extensa recopilación de datos, limitando así la usabilidad práctica de VAD. Para abordar estos desafíos, este estudio propone la técnica de detección de anomalías en video personalizable (C-VAD) y el modelo AnyAnomaly. C-VAD considera el texto definido por el usuario como un evento anormal y detecta los fotogramas que contienen un evento específico en un video. Implementamos AnyAnomaly de manera efectiva utilizando un sistema de respuesta visual a preguntas con conciencia del contexto, sin necesidad de ajustar finamente el gran modelo de lenguaje visual. Para validar la efectividad del modelo propuesto, construimos conjuntos de datos C-VAD y demostramos la superioridad de AnyAnomaly. Además, nuestro enfoque mostró un rendimiento competitivo en conjuntos de datos de referencia de VAD, logrando resultados de vanguardia en el conjunto de datos UBnormal y superando a otros métodos en generalización en todos los conjuntos de datos. Nuestro código está disponible en línea en github.com/SkiddieAhn/Paper-AnyAnomaly.
English
Video anomaly detection (VAD) is crucial for video analysis and surveillance
in computer vision. However, existing VAD models rely on learned normal
patterns, which makes them difficult to apply to diverse environments.
Consequently, users should retrain models or develop separate AI models for new
environments, which requires expertise in machine learning, high-performance
hardware, and extensive data collection, limiting the practical usability of
VAD. To address these challenges, this study proposes customizable video
anomaly detection (C-VAD) technique and the AnyAnomaly model. C-VAD considers
user-defined text as an abnormal event and detects frames containing a
specified event in a video. We effectively implemented AnyAnomaly using a
context-aware visual question answering without fine-tuning the large vision
language model. To validate the effectiveness of the proposed model, we
constructed C-VAD datasets and demonstrated the superiority of AnyAnomaly.
Furthermore, our approach showed competitive performance on VAD benchmark
datasets, achieving state-of-the-art results on the UBnormal dataset and
outperforming other methods in generalization across all datasets. Our code is
available online at github.com/SkiddieAhn/Paper-AnyAnomaly.Summary
AI-Generated Summary