VAU-R1: Улучшение понимания видеосцен с аномалиями посредством тонкой настройки с использованием обучения с подкреплением
VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning
May 29, 2025
Авторы: Liyun Zhu, Qixiang Chen, Xi Shen, Xiaodong Cun
cs.AI
Аннотация
Понимание аномалий в видео (Video Anomaly Understanding, VAU) играет ключевую роль в таких приложениях, как умные города, системы безопасности и наблюдения, а также системы предупреждения о катастрофах. Однако эта задача остается сложной из-за необходимости точного пространственно-временного восприятия и устойчивого рассуждения в условиях неопределенности. Несмотря на прогресс в области обнаружения аномалий, существующие методы часто недостаточно интерпретируемы и испытывают трудности с учетом причинно-следственных и контекстных аспектов аномальных событий. Эта проблема усугубляется отсутствием комплексных эталонов для оценки способности к рассуждению в сценариях с аномалиями. Для решения обеих задач мы представляем VAU-R1 — ресурсоэффективную платформу, основанную на мультимодальных больших языковых моделях (Multimodal Large Language Models, MLLMs), которая улучшает рассуждение об аномалиях с помощью тонкой настройки с подкреплением (Reinforcement Fine-Tuning, RFT). Кроме того, мы предлагаем VAU-Bench — первый эталонный набор данных, ориентированный на цепочку рассуждений (Chain-of-Thought) для анализа аномалий в видео, включающий вопросы с множественным выбором, подробные обоснования, временные аннотации и описательные подписи. Экспериментальные результаты показывают, что VAU-R1 значительно повышает точность ответов на вопросы, временную привязку и согласованность рассуждений в различных контекстах. Вместе наш метод и эталонный набор данных закладывают прочную основу для интерпретируемого и осознанного понимания аномалий в видео. Наш код доступен по адресу https://github.com/GVCLab/VAU-R1.
English
Video Anomaly Understanding (VAU) is essential for applications such as smart
cities, security surveillance, and disaster alert systems, yet remains
challenging due to its demand for fine-grained spatio-temporal perception and
robust reasoning under ambiguity. Despite advances in anomaly detection,
existing methods often lack interpretability and struggle to capture the causal
and contextual aspects of abnormal events. This limitation is further
compounded by the absence of comprehensive benchmarks for evaluating reasoning
ability in anomaly scenarios. To address both challenges, we introduce VAU-R1,
a data-efficient framework built upon Multimodal Large Language Models (MLLMs),
which enhances anomaly reasoning through Reinforcement Fine-Tuning (RFT).
Besides, we propose VAU-Bench, the first Chain-of-Thought benchmark tailored
for video anomaly reasoning, featuring multiple-choice QA, detailed rationales,
temporal annotations, and descriptive captions. Empirical results show that
VAU-R1 significantly improves question answering accuracy, temporal grounding,
and reasoning coherence across diverse contexts. Together, our method and
benchmark establish a strong foundation for interpretable and reasoning-aware
video anomaly understanding. Our code is available at
https://github.com/GVCLab/VAU-R1.