VAU-R1 : Amélioration de la compréhension des anomalies vidéo par réglage fin via apprentissage par renforcement
VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning
May 29, 2025
Auteurs: Liyun Zhu, Qixiang Chen, Xi Shen, Xiaodong Cun
cs.AI
Résumé
La compréhension des anomalies vidéo (VAU) est essentielle pour des applications telles que les villes intelligentes, la surveillance de sécurité et les systèmes d'alerte aux catastrophes, mais reste un défi en raison de son besoin de perception spatio-temporelle fine et de raisonnement robuste face à l'ambiguïté. Malgré les avancées dans la détection d'anomalies, les méthodes existantes manquent souvent d'interprétabilité et peinent à capturer les aspects causaux et contextuels des événements anormaux. Cette limitation est encore accentuée par l'absence de benchmarks complets pour évaluer la capacité de raisonnement dans les scénarios d'anomalies. Pour relever ces deux défis, nous introduisons VAU-R1, un cadre efficace en termes de données basé sur des Modèles de Langage Multimodaux de Grande Taille (MLLMs), qui améliore le raisonnement sur les anomalies grâce à un Réglage Fin par Renforcement (RFT). Par ailleurs, nous proposons VAU-Bench, le premier benchmark en chaîne de pensée spécifiquement conçu pour le raisonnement sur les anomalies vidéo, comprenant des questions à choix multiples, des justifications détaillées, des annotations temporelles et des descriptions captivantes. Les résultats empiriques montrent que VAU-R1 améliore significativement la précision des réponses aux questions, la localisation temporelle et la cohérence du raisonnement dans divers contextes. Ensemble, notre méthode et notre benchmark établissent une base solide pour une compréhension des anomalies vidéo interprétable et consciente du raisonnement. Notre code est disponible à l'adresse suivante : https://github.com/GVCLab/VAU-R1.
English
Video Anomaly Understanding (VAU) is essential for applications such as smart
cities, security surveillance, and disaster alert systems, yet remains
challenging due to its demand for fine-grained spatio-temporal perception and
robust reasoning under ambiguity. Despite advances in anomaly detection,
existing methods often lack interpretability and struggle to capture the causal
and contextual aspects of abnormal events. This limitation is further
compounded by the absence of comprehensive benchmarks for evaluating reasoning
ability in anomaly scenarios. To address both challenges, we introduce VAU-R1,
a data-efficient framework built upon Multimodal Large Language Models (MLLMs),
which enhances anomaly reasoning through Reinforcement Fine-Tuning (RFT).
Besides, we propose VAU-Bench, the first Chain-of-Thought benchmark tailored
for video anomaly reasoning, featuring multiple-choice QA, detailed rationales,
temporal annotations, and descriptive captions. Empirical results show that
VAU-R1 significantly improves question answering accuracy, temporal grounding,
and reasoning coherence across diverse contexts. Together, our method and
benchmark establish a strong foundation for interpretable and reasoning-aware
video anomaly understanding. Our code is available at
https://github.com/GVCLab/VAU-R1.