AnyAnomaly: Обнаружение аномалий в видео с нулевым обучением и настройкой с использованием LVLM
AnyAnomaly: Zero-Shot Customizable Video Anomaly Detection with LVLM
March 6, 2025
Авторы: Sunghyun Ahn, Youngwan Jo, Kijung Lee, Sein Kwon, Inpyo Hong, Sanghyun Park
cs.AI
Аннотация
Обнаружение аномалий в видео (Video Anomaly Detection, VAD) играет ключевую роль в анализе и видеонаблюдении в области компьютерного зрения. Однако существующие модели VAD полагаются на изученные нормальные паттерны, что затрудняет их применение в разнообразных средах. В результате пользователям приходится переобучать модели или разрабатывать отдельные модели ИИ для новых сред, что требует экспертных знаний в машинном обучении, высокопроизводительного оборудования и масштабного сбора данных, ограничивая практическую применимость VAD. Для решения этих проблем в данном исследовании предлагается настраиваемая техника обнаружения аномалий в видео (Customizable Video Anomaly Detection, C-VAD) и модель AnyAnomaly. C-VAD учитывает пользовательский текст как описание аномального события и обнаруживает кадры, содержащие указанное событие в видео. Мы эффективно реализовали AnyAnomaly с использованием контекстно-зависимого визуального ответа на вопросы без тонкой настройки крупной модели обработки визуальных и текстовых данных. Для проверки эффективности предложенной модели мы создали наборы данных C-VAD и продемонстрировали превосходство AnyAnomaly. Кроме того, наш подход показал конкурентоспособные результаты на эталонных наборах данных VAD, достигнув передовых показателей на наборе данных UBnormal и превзойдя другие методы в обобщении на всех наборах данных. Наш код доступен онлайн по адресу github.com/SkiddieAhn/Paper-AnyAnomaly.
English
Video anomaly detection (VAD) is crucial for video analysis and surveillance
in computer vision. However, existing VAD models rely on learned normal
patterns, which makes them difficult to apply to diverse environments.
Consequently, users should retrain models or develop separate AI models for new
environments, which requires expertise in machine learning, high-performance
hardware, and extensive data collection, limiting the practical usability of
VAD. To address these challenges, this study proposes customizable video
anomaly detection (C-VAD) technique and the AnyAnomaly model. C-VAD considers
user-defined text as an abnormal event and detects frames containing a
specified event in a video. We effectively implemented AnyAnomaly using a
context-aware visual question answering without fine-tuning the large vision
language model. To validate the effectiveness of the proposed model, we
constructed C-VAD datasets and demonstrated the superiority of AnyAnomaly.
Furthermore, our approach showed competitive performance on VAD benchmark
datasets, achieving state-of-the-art results on the UBnormal dataset and
outperforming other methods in generalization across all datasets. Our code is
available online at github.com/SkiddieAhn/Paper-AnyAnomaly.Summary
AI-Generated Summary