VADER: Auf dem Weg zu einem kausalen Verständnis von Videoanomalien mit relationsbewussten Large Language Models
VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models
November 10, 2025
papers.authors: Ying Cheng, Yu-Ho Lin, Min-Hung Chen, Fu-En Yang, Shang-Hong Lai
cs.AI
papers.abstract
Video Anomaly Understanding (VAU) zielt darauf ab, eine detaillierte Interpretation und semantische Erfassung anomaler Ereignisse in Videos zu liefern und adressiert damit die Einschränkungen traditioneller Methoden, die sich lediglich auf die Detektion und Lokalisierung von Anomalien konzentrieren. Bisherige Ansätze vernachlässigen jedoch oft die tieferliegenden kausalen Beziehungen und Interaktionen zwischen Objekten, die für das Verständnis anomaler Verhaltensweisen entscheidend sind. In diesem Artikel stellen wir VADER vor, ein LLM-gesteuertes Framework für Video Anomaly unDErstanding, das Relationsmerkmale von Objekten in Keyframes mit visuellen Hinweisen integriert, um das Anomalieverständnis aus Videos zu verbessern. Konkret wendet VADER zunächst einen Anomalie-Scorer an, um anomalienspezifische Scores pro Frame zu vergeben, gefolgt von einer Context-AwarE Sampling (CAES)-Strategie, um den kausalen Kontext jedes anomalen Ereignisses zu erfassen. Ein Relation Feature Extractor und ein COntrastive Relation Encoder (CORE) modellieren gemeinsam dynamische Objektinteraktionen und erzeugen kompakte Relationsrepräsentationen für nachgelagerte Reasoning-Aufgaben. Diese visuellen und relationalen Hinweise werden mit LLMs integriert, um detaillierte, kausal fundierte Beschreibungen zu generieren und robuste, anomalierelevante Frage-Antwort-Systeme zu unterstützen. Experimente auf mehreren realen VAU-Benchmarks zeigen, dass VADER in den Aufgaben Anomaliebeschreibung, -erklärung und kausales Reasoning durchweg starke Ergebnisse erzielt und damit den State-of-the-Art im Bereich der erklärbaren Videoanomalieanalyse voranbringt.
English
Video anomaly understanding (VAU) aims to provide detailed interpretation and
semantic comprehension of anomalous events within videos, addressing
limitations of traditional methods that focus solely on detecting and
localizing anomalies. However, existing approaches often neglect the deeper
causal relationships and interactions between objects, which are critical for
understanding anomalous behaviors. In this paper, we propose VADER, an
LLM-driven framework for Video Anomaly unDErstanding, which integrates keyframe
object Relation features with visual cues to enhance anomaly comprehension from
video. Specifically, VADER first applies an Anomaly Scorer to assign per-frame
anomaly scores, followed by a Context-AwarE Sampling (CAES) strategy to capture
the causal context of each anomalous event. A Relation Feature Extractor and a
COntrastive Relation Encoder (CORE) jointly model dynamic object interactions,
producing compact relational representations for downstream reasoning. These
visual and relational cues are integrated with LLMs to generate detailed,
causally grounded descriptions and support robust anomaly-related question
answering. Experiments on multiple real-world VAU benchmarks demonstrate that
VADER achieves strong results across anomaly description, explanation, and
causal reasoning tasks, advancing the frontier of explainable video anomaly
analysis.