ChatPaper.aiChatPaper

VADER:関係認識を備えた大規模言語モデルによる因果的ビデオ異常理解へのアプローチ

VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models

November 10, 2025
著者: Ying Cheng, Yu-Ho Lin, Min-Hung Chen, Fu-En Yang, Shang-Hong Lai
cs.AI

要旨

ビデオ異常理解(VAU)は、ビデオ内の異常事象に対する詳細な解釈と意味理解を提供することを目的とし、異常の検出と位置特定のみに焦点を当てる従来手法の限界に対処する。しかし、既存の手法では、異常行動の理解に不可欠な、オブジェクト間の深い因果関係や相互作用が軽視されがちである。本論文では、LLM駆動のビデオ異常理解フレームワークであるVADERを提案する。VADERは、キーフレームのオブジェクト関係特徴量と視覚的手がかりを統合し、ビデオからの異常理解を強化する。具体的には、VADERはまず異常スコアラーを適用してフレーム単位の異常スコアを割り当て、その後、各異常事象の因果的コンテキストを捕捉するContext-AwarE Sampling(CAES)戦略を採用する。関係特徴抽出器とCOntrastive Relation Encoder(CORE)が動的なオブジェクト相互作用を共同でモデル化し、下流の推論向けにコンパクトな関係表現を生成する。これらの視覚的・関係的手がかりはLLMと統合され、詳細で因果に基づいた記述を生成し、堅牢な異常関連質問応答を支援する。複数の実世界VAUベンチマークによる実験により、VADERが異常記述、説明、因果推論タスクにおいて強力な結果を達成し、説明可能なビデオ異常分析の最先端を推進することが実証された。
English
Video anomaly understanding (VAU) aims to provide detailed interpretation and semantic comprehension of anomalous events within videos, addressing limitations of traditional methods that focus solely on detecting and localizing anomalies. However, existing approaches often neglect the deeper causal relationships and interactions between objects, which are critical for understanding anomalous behaviors. In this paper, we propose VADER, an LLM-driven framework for Video Anomaly unDErstanding, which integrates keyframe object Relation features with visual cues to enhance anomaly comprehension from video. Specifically, VADER first applies an Anomaly Scorer to assign per-frame anomaly scores, followed by a Context-AwarE Sampling (CAES) strategy to capture the causal context of each anomalous event. A Relation Feature Extractor and a COntrastive Relation Encoder (CORE) jointly model dynamic object interactions, producing compact relational representations for downstream reasoning. These visual and relational cues are integrated with LLMs to generate detailed, causally grounded descriptions and support robust anomaly-related question answering. Experiments on multiple real-world VAU benchmarks demonstrate that VADER achieves strong results across anomaly description, explanation, and causal reasoning tasks, advancing the frontier of explainable video anomaly analysis.
PDF43December 2, 2025