VADER : Vers une compréhension causale des anomalies vidéo avec des grands modèles de langage sensibles aux relations
VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models
November 10, 2025
papers.authors: Ying Cheng, Yu-Ho Lin, Min-Hung Chen, Fu-En Yang, Shang-Hong Lai
cs.AI
papers.abstract
La compréhension des anomalies vidéo (VAU) vise à fournir une interprétation détaillée et une compréhension sémantique des événements anormaux dans les vidéos, palliant les limitations des méthodes traditionnelles qui se concentrent uniquement sur la détection et la localisation des anomalies. Cependant, les approches existantes négligent souvent les relations causales profondes et les interactions entre les objets, qui sont essentielles pour comprendre les comportements anormaux. Dans cet article, nous proposons VADER, un framework piloté par LLM pour la compréhension des anomalies vidéo, qui intègre les caractéristiques relationnelles des objets dans les images clés avec des indices visuels pour améliorer la compréhension des anomalies à partir de la vidéo. Concrètement, VADER applique d'abord un Évaluateur d'Anomalies pour attribuer des scores d'anomalie par image, suivi d'une stratégie d'Échantillonnage Sensible au Contexte (CAES) pour capturer le contexte causal de chaque événement anormal. Un Extracteur de Caractéristiques Relationnelles et un Encodeur Relationnel par Contraste (CORE) modélisent conjointement les interactions dynamiques entre objets, produisant des représentations relationnelles compactes pour le raisonnement en aval. Ces indices visuels et relationnels sont intégrés aux LLM pour générer des descriptions détaillées et fondées causalement, et supporter un système robuste de réponse à des questions liées aux anomalies. Les expériences sur plusieurs benchmarks VAU du monde réel démontrent que VADER obtient des résultats solides dans les tâches de description, d'explication et de raisonnement causal des anomalies, repoussant les frontières de l'analyse explicable des anomalies vidéo.
English
Video anomaly understanding (VAU) aims to provide detailed interpretation and
semantic comprehension of anomalous events within videos, addressing
limitations of traditional methods that focus solely on detecting and
localizing anomalies. However, existing approaches often neglect the deeper
causal relationships and interactions between objects, which are critical for
understanding anomalous behaviors. In this paper, we propose VADER, an
LLM-driven framework for Video Anomaly unDErstanding, which integrates keyframe
object Relation features with visual cues to enhance anomaly comprehension from
video. Specifically, VADER first applies an Anomaly Scorer to assign per-frame
anomaly scores, followed by a Context-AwarE Sampling (CAES) strategy to capture
the causal context of each anomalous event. A Relation Feature Extractor and a
COntrastive Relation Encoder (CORE) jointly model dynamic object interactions,
producing compact relational representations for downstream reasoning. These
visual and relational cues are integrated with LLMs to generate detailed,
causally grounded descriptions and support robust anomaly-related question
answering. Experiments on multiple real-world VAU benchmarks demonstrate that
VADER achieves strong results across anomaly description, explanation, and
causal reasoning tasks, advancing the frontier of explainable video anomaly
analysis.