ChatPaper.aiChatPaper

VAU-R1: Fortschritt im Verständnis von Videoanomalien durch Reinforcement-Fine-Tuning

VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning

May 29, 2025
Autoren: Liyun Zhu, Qixiang Chen, Xi Shen, Xiaodong Cun
cs.AI

Zusammenfassung

Video Anomaly Understanding (VAU) ist entscheidend für Anwendungen wie Smart Cities, Sicherheitsüberwachung und Katastrophenwarnsysteme, bleibt jedoch aufgrund der Anforderungen an fein abgestimmte räumlich-zeitliche Wahrnehmung und robuste Schlussfolgerungen unter Unklarheiten eine Herausforderung. Trotz Fortschritten in der Anomalieerkennung mangelt es bestehenden Methoden oft an Interpretierbarkeit, und sie haben Schwierigkeiten, die kausalen und kontextuellen Aspekte von abnormalen Ereignissen zu erfassen. Diese Einschränkung wird weiter verstärkt durch das Fehlen umfassender Benchmarks zur Bewertung der Schlussfolgerungsfähigkeit in Anomalieszenarien. Um beide Herausforderungen zu bewältigen, stellen wir VAU-R1 vor, ein dateneffizientes Framework, das auf Multimodalen Großen Sprachmodellen (MLLMs) basiert und die Anomalieschlussfolgerung durch Reinforcement Fine-Tuning (RFT) verbessert. Zusätzlich schlagen wir VAU-Bench vor, den ersten Chain-of-Thought-Benchmark, der speziell für die Videoanomalieschlussfolgerung entwickelt wurde und Multiple-Choice-Fragen, detaillierte Begründungen, zeitliche Annotationen und beschreibende Bildunterschriften umfasst. Empirische Ergebnisse zeigen, dass VAU-R1 die Genauigkeit der Fragebeantwortung, die zeitliche Verankerung und die Schlussfolgerungskohärenz in verschiedenen Kontexten signifikant verbessert. Zusammen bilden unsere Methode und der Benchmark eine solide Grundlage für interpretierbares und schlussfolgerungsbewusstes Video Anomaly Understanding. Unser Code ist verfügbar unter https://github.com/GVCLab/VAU-R1.
English
Video Anomaly Understanding (VAU) is essential for applications such as smart cities, security surveillance, and disaster alert systems, yet remains challenging due to its demand for fine-grained spatio-temporal perception and robust reasoning under ambiguity. Despite advances in anomaly detection, existing methods often lack interpretability and struggle to capture the causal and contextual aspects of abnormal events. This limitation is further compounded by the absence of comprehensive benchmarks for evaluating reasoning ability in anomaly scenarios. To address both challenges, we introduce VAU-R1, a data-efficient framework built upon Multimodal Large Language Models (MLLMs), which enhances anomaly reasoning through Reinforcement Fine-Tuning (RFT). Besides, we propose VAU-Bench, the first Chain-of-Thought benchmark tailored for video anomaly reasoning, featuring multiple-choice QA, detailed rationales, temporal annotations, and descriptive captions. Empirical results show that VAU-R1 significantly improves question answering accuracy, temporal grounding, and reasoning coherence across diverse contexts. Together, our method and benchmark establish a strong foundation for interpretable and reasoning-aware video anomaly understanding. Our code is available at https://github.com/GVCLab/VAU-R1.
PDF62June 3, 2025