VAU-R1: Miglioramento della Comprensione delle Anomalie Video tramite Fine-Tuning con Rinforzo
VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning
May 29, 2025
Autori: Liyun Zhu, Qixiang Chen, Xi Shen, Xiaodong Cun
cs.AI
Abstract
La comprensione delle anomalie video (Video Anomaly Understanding, VAU) è essenziale per applicazioni come le città intelligenti, la sorveglianza della sicurezza e i sistemi di allerta per disastri, ma rimane una sfida a causa della sua richiesta di percezione spazio-temporale fine e di ragionamento robusto in condizioni di ambiguità. Nonostante i progressi nel rilevamento delle anomalie, i metodi esistenti spesso mancano di interpretabilità e faticano a cogliere gli aspetti causali e contestuali degli eventi anomali. Questa limitazione è ulteriormente aggravata dall'assenza di benchmark completi per valutare la capacità di ragionamento negli scenari di anomalia. Per affrontare entrambe le sfide, introduciamo VAU-R1, un framework efficiente in termini di dati basato su Modelli Linguistici Multimodali di Grande Scala (Multimodal Large Language Models, MLLMs), che migliora il ragionamento sulle anomalie attraverso il Fine-Tuning con Rinforzo (Reinforcement Fine-Tuning, RFT). Inoltre, proponiamo VAU-Bench, il primo benchmark a Catena di Pensiero (Chain-of-Thought) specificamente progettato per il ragionamento sulle anomalie video, caratterizzato da domande a scelta multipla, razionali dettagliati, annotazioni temporali e didascalie descrittive. I risultati empirici dimostrano che VAU-R1 migliora significativamente l'accuratezza nelle risposte alle domande, il grounding temporale e la coerenza del ragionamento in contesti diversi. Insieme, il nostro metodo e il benchmark stabiliscono una solida base per una comprensione interpretabile e consapevole del ragionamento nelle anomalie video. Il nostro codice è disponibile all'indirizzo https://github.com/GVCLab/VAU-R1.
English
Video Anomaly Understanding (VAU) is essential for applications such as smart
cities, security surveillance, and disaster alert systems, yet remains
challenging due to its demand for fine-grained spatio-temporal perception and
robust reasoning under ambiguity. Despite advances in anomaly detection,
existing methods often lack interpretability and struggle to capture the causal
and contextual aspects of abnormal events. This limitation is further
compounded by the absence of comprehensive benchmarks for evaluating reasoning
ability in anomaly scenarios. To address both challenges, we introduce VAU-R1,
a data-efficient framework built upon Multimodal Large Language Models (MLLMs),
which enhances anomaly reasoning through Reinforcement Fine-Tuning (RFT).
Besides, we propose VAU-Bench, the first Chain-of-Thought benchmark tailored
for video anomaly reasoning, featuring multiple-choice QA, detailed rationales,
temporal annotations, and descriptive captions. Empirical results show that
VAU-R1 significantly improves question answering accuracy, temporal grounding,
and reasoning coherence across diverse contexts. Together, our method and
benchmark establish a strong foundation for interpretable and reasoning-aware
video anomaly understanding. Our code is available at
https://github.com/GVCLab/VAU-R1.