VAU-R1: Avance en la Comprensión de Anomalías en Video mediante Ajuste Fino por Refuerzo
VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning
May 29, 2025
Autores: Liyun Zhu, Qixiang Chen, Xi Shen, Xiaodong Cun
cs.AI
Resumen
La Comprensión de Anomalías en Video (VAU, por sus siglas en inglés) es esencial para aplicaciones como ciudades inteligentes, vigilancia de seguridad y sistemas de alerta de desastres, pero sigue siendo un desafío debido a su demanda de percepción espacio-temporal de grano fino y razonamiento robusto bajo ambigüedad. A pesar de los avances en la detección de anomalías, los métodos existentes a menudo carecen de interpretabilidad y luchan por capturar los aspectos causales y contextuales de eventos anómalos. Esta limitación se ve agravada por la ausencia de puntos de referencia integrales para evaluar la capacidad de razonamiento en escenarios de anomalías. Para abordar ambos desafíos, presentamos VAU-R1, un marco eficiente en datos basado en Modelos de Lenguaje Multimodal de Gran Escala (MLLMs), que mejora el razonamiento de anomalías mediante Ajuste Fino por Refuerzo (RFT). Además, proponemos VAU-Bench, el primer punto de referencia de Cadena de Pensamiento diseñado específicamente para el razonamiento de anomalías en video, que incluye preguntas de opción múltiple, razonamientos detallados, anotaciones temporales y descripciones narrativas. Los resultados empíricos muestran que VAU-R1 mejora significativamente la precisión en la respuesta a preguntas, la localización temporal y la coherencia del razonamiento en diversos contextos. Juntos, nuestro método y punto de referencia establecen una base sólida para la comprensión de anomalías en video interpretable y consciente del razonamiento. Nuestro código está disponible en https://github.com/GVCLab/VAU-R1.
English
Video Anomaly Understanding (VAU) is essential for applications such as smart
cities, security surveillance, and disaster alert systems, yet remains
challenging due to its demand for fine-grained spatio-temporal perception and
robust reasoning under ambiguity. Despite advances in anomaly detection,
existing methods often lack interpretability and struggle to capture the causal
and contextual aspects of abnormal events. This limitation is further
compounded by the absence of comprehensive benchmarks for evaluating reasoning
ability in anomaly scenarios. To address both challenges, we introduce VAU-R1,
a data-efficient framework built upon Multimodal Large Language Models (MLLMs),
which enhances anomaly reasoning through Reinforcement Fine-Tuning (RFT).
Besides, we propose VAU-Bench, the first Chain-of-Thought benchmark tailored
for video anomaly reasoning, featuring multiple-choice QA, detailed rationales,
temporal annotations, and descriptive captions. Empirical results show that
VAU-R1 significantly improves question answering accuracy, temporal grounding,
and reasoning coherence across diverse contexts. Together, our method and
benchmark establish a strong foundation for interpretable and reasoning-aware
video anomaly understanding. Our code is available at
https://github.com/GVCLab/VAU-R1.