VAU-R1: Avançando na Compreensão de Anomalias em Vídeo por meio de Ajuste Fino com Reforço
VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning
May 29, 2025
Autores: Liyun Zhu, Qixiang Chen, Xi Shen, Xiaodong Cun
cs.AI
Resumo
O Entendimento de Anomalias em Vídeo (VAU) é essencial para aplicações como cidades inteligentes, vigilância de segurança e sistemas de alerta de desastres, mas continua desafiador devido à sua demanda por percepção espaço-temporal refinada e raciocínio robusto sob ambiguidade. Apesar dos avanços na detecção de anomalias, os métodos existentes frequentemente carecem de interpretabilidade e lutam para capturar os aspectos causais e contextuais de eventos anormais. Essa limitação é ainda mais agravada pela ausência de benchmarks abrangentes para avaliar a capacidade de raciocínio em cenários de anomalias. Para abordar ambos os desafios, introduzimos o VAU-R1, um framework eficiente em dados baseado em Modelos de Linguagem Multimodais de Grande Escala (MLLMs), que aprimora o raciocínio de anomalias por meio de Ajuste Fino por Reforço (RFT). Além disso, propomos o VAU-Bench, o primeiro benchmark de Cadeia de Pensamento (Chain-of-Thought) projetado especificamente para raciocínio de anomalias em vídeo, apresentando questões de múltipla escolha, racionais detalhados, anotações temporais e legendas descritivas. Resultados empíricos mostram que o VAU-R1 melhora significativamente a precisão na resposta a perguntas, a localização temporal e a coerência do raciocínio em diversos contextos. Juntos, nosso método e benchmark estabelecem uma base sólida para o entendimento de anomalias em vídeo interpretável e consciente do raciocínio. Nosso código está disponível em https://github.com/GVCLab/VAU-R1.
English
Video Anomaly Understanding (VAU) is essential for applications such as smart
cities, security surveillance, and disaster alert systems, yet remains
challenging due to its demand for fine-grained spatio-temporal perception and
robust reasoning under ambiguity. Despite advances in anomaly detection,
existing methods often lack interpretability and struggle to capture the causal
and contextual aspects of abnormal events. This limitation is further
compounded by the absence of comprehensive benchmarks for evaluating reasoning
ability in anomaly scenarios. To address both challenges, we introduce VAU-R1,
a data-efficient framework built upon Multimodal Large Language Models (MLLMs),
which enhances anomaly reasoning through Reinforcement Fine-Tuning (RFT).
Besides, we propose VAU-Bench, the first Chain-of-Thought benchmark tailored
for video anomaly reasoning, featuring multiple-choice QA, detailed rationales,
temporal annotations, and descriptive captions. Empirical results show that
VAU-R1 significantly improves question answering accuracy, temporal grounding,
and reasoning coherence across diverse contexts. Together, our method and
benchmark establish a strong foundation for interpretable and reasoning-aware
video anomaly understanding. Our code is available at
https://github.com/GVCLab/VAU-R1.