VADER: Verso una Comprensione Causale delle Anomalie Video con Large Language Models Relation-Aware
VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models
November 10, 2025
Autori: Ying Cheng, Yu-Ho Lin, Min-Hung Chen, Fu-En Yang, Shang-Hong Lai
cs.AI
Abstract
La comprensione delle anomalie video (VAU) mira a fornire un'interpretazione dettagliata e una comprensione semantica degli eventi anomali all'interno dei video, superando i limiti dei metodi tradizionali che si concentrano esclusivamente sul rilevamento e sulla localizzazione delle anomalie. Tuttavia, gli approcci esistenti spesso trascurano le più profonde relazioni causali e le interazioni tra oggetti, elementi critici per la comprensione dei comportamenti anomali. In questo articolo, proponiamo VADER, un framework guidato da LLM per la comprensione delle anomalie video, che integra le feature relazionali degli oggetti nei fotogrammi chiave con i segnali visivi per migliorare la comprensione delle anomalie a partire dal video. Nello specifico, VADER applica prima un Anomaly Scorer per assegnare punteggi di anomalia per fotogramma, seguito da una strategia di Context-AwarE Sampling (CAES) per catturare il contesto causale di ogni evento anomalo. Un Relation Feature Extractor e un COntrastive Relation Encoder (CORE) modellano congiuntamente le interazioni dinamiche tra oggetti, producendo rappresentazioni relazionali compatte per il reasoning a valle. Questi segnali visivi e relazionali sono integrati con gli LLM per generare descrizioni dettagliate e causalmente fondate e supportare un robusto question answering relativo alle anomalie. Esperimenti su molteplici benchmark VAU del mondo reale dimostrano che VADER raggiunge risultati solidi nelle attività di descrizione, spiegazione e ragionamento causale delle anomalie, avanzando la frontiera dell'analisi spiegabile delle anomalie video.
English
Video anomaly understanding (VAU) aims to provide detailed interpretation and
semantic comprehension of anomalous events within videos, addressing
limitations of traditional methods that focus solely on detecting and
localizing anomalies. However, existing approaches often neglect the deeper
causal relationships and interactions between objects, which are critical for
understanding anomalous behaviors. In this paper, we propose VADER, an
LLM-driven framework for Video Anomaly unDErstanding, which integrates keyframe
object Relation features with visual cues to enhance anomaly comprehension from
video. Specifically, VADER first applies an Anomaly Scorer to assign per-frame
anomaly scores, followed by a Context-AwarE Sampling (CAES) strategy to capture
the causal context of each anomalous event. A Relation Feature Extractor and a
COntrastive Relation Encoder (CORE) jointly model dynamic object interactions,
producing compact relational representations for downstream reasoning. These
visual and relational cues are integrated with LLMs to generate detailed,
causally grounded descriptions and support robust anomaly-related question
answering. Experiments on multiple real-world VAU benchmarks demonstrate that
VADER achieves strong results across anomaly description, explanation, and
causal reasoning tasks, advancing the frontier of explainable video anomaly
analysis.