ChatPaper.aiChatPaper

VADER: 관계 인식 대규모 언어 모델을 활용한 인과적 비디오 이상 현상 이해

VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models

November 10, 2025
저자: Ying Cheng, Yu-Ho Lin, Min-Hung Chen, Fu-En Yang, Shang-Hong Lai
cs.AI

초록

비디오 이상 현상 이해(VAU)는 이상 이벤트에 대한 세부적인 해석과 의미론적 이해를 제공하여, 이상 현상의 탐지 및 위치 특정에만 집중하는 기존 방법의 한계를 해결하고자 합니다. 그러나 기존 접근법들은 이상 행동을 이해하는 데 중요한 객체 간의 깊은 인과 관계와 상호작용을 종종 간과합니다. 본 논문에서는 비디오 기반 이상 현상 이해를 위한 LLM 기반 프레임워크인 VADER를 제안합니다. VADER는 키프레임 객체 관계 특징과 시각적 단서를 통합하여 비디오로부터의 이상 현상 이해를 향상시킵니다. 구체적으로, VADER는 먼저 Anomaly Scorer를 적용하여 프레임별 이상 점수를 부여한 후, 각 이상 이벤트의 인과적 맥락을 포착하기 위한 Context-AwarE Sampling(CAES) 전략을 적용합니다. Relation Feature Extractor와 COntrastive Relation Encoder(CORE)는 동적 객체 상호작용을 공동으로 모델링하여 다운스트림 추론을 위한 간결한 관계 표현을 생성합니다. 이러한 시각적 및 관계적 단서는 LLM과 통합되어 세부적이고 인과적으로 근거 있는 설명을 생성하며, 강력한 이상 현상 관련 질의응답을 지원합니다. 여러 실제 VAU 벤치마크에서의 실험 결과, VADER가 이상 현상 설명, 해석 및 인과 추론 과제 전반에 걸쳐 우수한 성과를 달성하여 설명 가능한 비디오 이상 현상 분석의 최전선을 발전시킴을 입증했습니다.
English
Video anomaly understanding (VAU) aims to provide detailed interpretation and semantic comprehension of anomalous events within videos, addressing limitations of traditional methods that focus solely on detecting and localizing anomalies. However, existing approaches often neglect the deeper causal relationships and interactions between objects, which are critical for understanding anomalous behaviors. In this paper, we propose VADER, an LLM-driven framework for Video Anomaly unDErstanding, which integrates keyframe object Relation features with visual cues to enhance anomaly comprehension from video. Specifically, VADER first applies an Anomaly Scorer to assign per-frame anomaly scores, followed by a Context-AwarE Sampling (CAES) strategy to capture the causal context of each anomalous event. A Relation Feature Extractor and a COntrastive Relation Encoder (CORE) jointly model dynamic object interactions, producing compact relational representations for downstream reasoning. These visual and relational cues are integrated with LLMs to generate detailed, causally grounded descriptions and support robust anomaly-related question answering. Experiments on multiple real-world VAU benchmarks demonstrate that VADER achieves strong results across anomaly description, explanation, and causal reasoning tasks, advancing the frontier of explainable video anomaly analysis.
PDF43December 2, 2025