ChatPaper.aiChatPaper

VAU-R1: Verbetering van Video-anomaliebegrip via Reinforcement Fine-Tuning

VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning

May 29, 2025
Auteurs: Liyun Zhu, Qixiang Chen, Xi Shen, Xiaodong Cun
cs.AI

Samenvatting

Video Anomaly Understanding (VAU) is essentieel voor toepassingen zoals slimme steden, beveiligingsbewaking en rampenwaarschuwingssystemen, maar blijft uitdagend vanwege de behoefte aan fijnmazige spatio-temporele waarneming en robuuste redenering onder onduidelijkheid. Ondanks vooruitgang in anomaliedetectie missen bestaande methoden vaak interpreteerbaarheid en hebben ze moeite om de causale en contextuele aspecten van abnormale gebeurtenissen vast te leggen. Deze beperking wordt verder versterkt door het ontbreken van uitgebreide benchmarks voor het evalueren van redeneervermogen in anomalie-scenario's. Om beide uitdagingen aan te pakken, introduceren we VAU-R1, een data-efficiënt framework gebaseerd op Multimodale Grote Taalmodellen (MLLMs), dat anomalieredenering verbetert door Reinforcement Fine-Tuning (RFT). Daarnaast stellen we VAU-Bench voor, de eerste Chain-of-Thought benchmark specifiek ontworpen voor video-anomalieredenering, met meerkeuzevragen, gedetailleerde redeneringen, temporele annotaties en beschrijvende bijschriften. Empirische resultaten tonen aan dat VAU-R1 de nauwkeurigheid van vraagbeantwoording, temporele verankering en redeneersamenhang aanzienlijk verbetert in diverse contexten. Samen vormen onze methode en benchmark een sterke basis voor interpreteerbaar en redeneringsbewust video-anomaliebegrip. Onze code is beschikbaar op https://github.com/GVCLab/VAU-R1.
English
Video Anomaly Understanding (VAU) is essential for applications such as smart cities, security surveillance, and disaster alert systems, yet remains challenging due to its demand for fine-grained spatio-temporal perception and robust reasoning under ambiguity. Despite advances in anomaly detection, existing methods often lack interpretability and struggle to capture the causal and contextual aspects of abnormal events. This limitation is further compounded by the absence of comprehensive benchmarks for evaluating reasoning ability in anomaly scenarios. To address both challenges, we introduce VAU-R1, a data-efficient framework built upon Multimodal Large Language Models (MLLMs), which enhances anomaly reasoning through Reinforcement Fine-Tuning (RFT). Besides, we propose VAU-Bench, the first Chain-of-Thought benchmark tailored for video anomaly reasoning, featuring multiple-choice QA, detailed rationales, temporal annotations, and descriptive captions. Empirical results show that VAU-R1 significantly improves question answering accuracy, temporal grounding, and reasoning coherence across diverse contexts. Together, our method and benchmark establish a strong foundation for interpretable and reasoning-aware video anomaly understanding. Our code is available at https://github.com/GVCLab/VAU-R1.
PDF62June 3, 2025