ChatPaper.aiChatPaper

VAU-R1: 강화 학습 기반 미세 조정을 통한 비디오 이상 탐지 기술의 발전

VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning

May 29, 2025
저자: Liyun Zhu, Qixiang Chen, Xi Shen, Xiaodong Cun
cs.AI

초록

비디오 이상 현상 이해(VAU)는 스마트 시티, 보안 감시, 재난 경보 시스템과 같은 응용 분야에서 필수적이지만, 세밀한 시공간적 인지와 모호한 상황에서의 강건한 추론을 요구하기 때문에 여전히 도전적인 과제로 남아 있습니다. 이상 탐지 분야의 발전에도 불구하고, 기존 방법들은 종종 해석 가능성이 부족하고 비정상적 사건의 인과적 및 맥락적 측면을 포착하는 데 어려움을 겪습니다. 이러한 한계는 이상 시나리오에서의 추론 능력을 평가하기 위한 포괄적인 벤치마크의 부재로 인해 더욱 심화됩니다. 이러한 두 가지 문제를 해결하기 위해, 우리는 다중 모드 대형 언어 모델(MLLMs)을 기반으로 한 데이터 효율적인 프레임워크인 VAU-R1을 소개합니다. 이 프레임워크는 강화 미세 조정(RFT)을 통해 이상 현상 추론을 강화합니다. 또한, 우리는 비디오 이상 현상 추론을 위해 특별히 설계된 최초의 사고 사슬(Chain-of-Thought) 벤치마크인 VAU-Bench를 제안합니다. 이 벤치마크는 객관식 질문과 답변, 상세한 근거, 시간적 주석, 그리고 설명적인 캡션을 포함합니다. 실험 결과는 VAU-R1이 다양한 맥락에서 질문 응답 정확도, 시간적 근거, 그리고 추론 일관성을 크게 향상시킴을 보여줍니다. 우리의 방법과 벤치마크는 해석 가능하고 추론을 고려한 비디오 이상 현상 이해를 위한 강력한 기반을 마련합니다. 우리의 코드는 https://github.com/GVCLab/VAU-R1에서 확인할 수 있습니다.
English
Video Anomaly Understanding (VAU) is essential for applications such as smart cities, security surveillance, and disaster alert systems, yet remains challenging due to its demand for fine-grained spatio-temporal perception and robust reasoning under ambiguity. Despite advances in anomaly detection, existing methods often lack interpretability and struggle to capture the causal and contextual aspects of abnormal events. This limitation is further compounded by the absence of comprehensive benchmarks for evaluating reasoning ability in anomaly scenarios. To address both challenges, we introduce VAU-R1, a data-efficient framework built upon Multimodal Large Language Models (MLLMs), which enhances anomaly reasoning through Reinforcement Fine-Tuning (RFT). Besides, we propose VAU-Bench, the first Chain-of-Thought benchmark tailored for video anomaly reasoning, featuring multiple-choice QA, detailed rationales, temporal annotations, and descriptive captions. Empirical results show that VAU-R1 significantly improves question answering accuracy, temporal grounding, and reasoning coherence across diverse contexts. Together, our method and benchmark establish a strong foundation for interpretable and reasoning-aware video anomaly understanding. Our code is available at https://github.com/GVCLab/VAU-R1.
PDF62June 3, 2025