ChatPaper.aiChatPaper

VAU-R1: Avance en la Comprensión de Anomalías en Video mediante Ajuste Fino por Refuerzo

VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning

May 29, 2025
Autores: Liyun Zhu, Qixiang Chen, Xi Shen, Xiaodong Cun
cs.AI

Resumen

La Comprensión de Anomalías en Video (VAU, por sus siglas en inglés) es esencial para aplicaciones como ciudades inteligentes, vigilancia de seguridad y sistemas de alerta de desastres, pero sigue siendo un desafío debido a su demanda de percepción espacio-temporal de grano fino y razonamiento robusto bajo ambigüedad. A pesar de los avances en la detección de anomalías, los métodos existentes a menudo carecen de interpretabilidad y luchan por capturar los aspectos causales y contextuales de eventos anómalos. Esta limitación se ve agravada por la ausencia de puntos de referencia integrales para evaluar la capacidad de razonamiento en escenarios de anomalías. Para abordar ambos desafíos, presentamos VAU-R1, un marco eficiente en datos basado en Modelos de Lenguaje Multimodal de Gran Escala (MLLMs), que mejora el razonamiento de anomalías mediante Ajuste Fino por Refuerzo (RFT). Además, proponemos VAU-Bench, el primer punto de referencia de Cadena de Pensamiento diseñado específicamente para el razonamiento de anomalías en video, que incluye preguntas de opción múltiple, razonamientos detallados, anotaciones temporales y descripciones narrativas. Los resultados empíricos muestran que VAU-R1 mejora significativamente la precisión en la respuesta a preguntas, la localización temporal y la coherencia del razonamiento en diversos contextos. Juntos, nuestro método y punto de referencia establecen una base sólida para la comprensión de anomalías en video interpretable y consciente del razonamiento. Nuestro código está disponible en https://github.com/GVCLab/VAU-R1.
English
Video Anomaly Understanding (VAU) is essential for applications such as smart cities, security surveillance, and disaster alert systems, yet remains challenging due to its demand for fine-grained spatio-temporal perception and robust reasoning under ambiguity. Despite advances in anomaly detection, existing methods often lack interpretability and struggle to capture the causal and contextual aspects of abnormal events. This limitation is further compounded by the absence of comprehensive benchmarks for evaluating reasoning ability in anomaly scenarios. To address both challenges, we introduce VAU-R1, a data-efficient framework built upon Multimodal Large Language Models (MLLMs), which enhances anomaly reasoning through Reinforcement Fine-Tuning (RFT). Besides, we propose VAU-Bench, the first Chain-of-Thought benchmark tailored for video anomaly reasoning, featuring multiple-choice QA, detailed rationales, temporal annotations, and descriptive captions. Empirical results show that VAU-R1 significantly improves question answering accuracy, temporal grounding, and reasoning coherence across diverse contexts. Together, our method and benchmark establish a strong foundation for interpretable and reasoning-aware video anomaly understanding. Our code is available at https://github.com/GVCLab/VAU-R1.
PDF62June 3, 2025