VADER: Verso una Comprensione Causale delle Anomalie Video con Large Language Models Relation-Aware

Abstract

La comprensione delle anomalie video (VAU) mira a fornire un'interpretazione dettagliata e una comprensione semantica degli eventi anomali all'interno dei video, superando i limiti dei metodi tradizionali che si concentrano esclusivamente sul rilevamento e sulla localizzazione delle anomalie. Tuttavia, gli approcci esistenti spesso trascurano le più profonde relazioni causali e le interazioni tra oggetti, elementi critici per la comprensione dei comportamenti anomali. In questo articolo, proponiamo VADER, un framework guidato da LLM per la comprensione delle anomalie video, che integra le feature relazionali degli oggetti nei fotogrammi chiave con i segnali visivi per migliorare la comprensione delle anomalie a partire dal video. Nello specifico, VADER applica prima un Anomaly Scorer per assegnare punteggi di anomalia per fotogramma, seguito da una strategia di Context-AwarE Sampling (CAES) per catturare il contesto causale di ogni evento anomalo. Un Relation Feature Extractor e un COntrastive Relation Encoder (CORE) modellano congiuntamente le interazioni dinamiche tra oggetti, producendo rappresentazioni relazionali compatte per il reasoning a valle. Questi segnali visivi e relazionali sono integrati con gli LLM per generare descrizioni dettagliate e causalmente fondate e supportare un robusto question answering relativo alle anomalie. Esperimenti su molteplici benchmark VAU del mondo reale dimostrano che VADER raggiunge risultati solidi nelle attività di descrizione, spiegazione e ragionamento causale delle anomalie, avanzando la frontiera dell'analisi spiegabile delle anomalie video.

English

Video anomaly understanding (VAU) aims to provide detailed interpretation and semantic comprehension of anomalous events within videos, addressing limitations of traditional methods that focus solely on detecting and localizing anomalies. However, existing approaches often neglect the deeper causal relationships and interactions between objects, which are critical for understanding anomalous behaviors. In this paper, we propose VADER, an LLM-driven framework for Video Anomaly unDErstanding, which integrates keyframe object Relation features with visual cues to enhance anomaly comprehension from video. Specifically, VADER first applies an Anomaly Scorer to assign per-frame anomaly scores, followed by a Context-AwarE Sampling (CAES) strategy to capture the causal context of each anomalous event. A Relation Feature Extractor and a COntrastive Relation Encoder (CORE) jointly model dynamic object interactions, producing compact relational representations for downstream reasoning. These visual and relational cues are integrated with LLMs to generate detailed, causally grounded descriptions and support robust anomaly-related question answering. Experiments on multiple real-world VAU benchmarks demonstrate that VADER achieves strong results across anomaly description, explanation, and causal reasoning tasks, advancing the frontier of explainable video anomaly analysis.

VADER: Verso una Comprensione Causale delle Anomalie Video con Large Language Models Relation-Aware

VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models

Abstract

Support