ChatPaper.aiChatPaper

Skyra: 근거 기반 아티팩트 추론을 통한 AI 생성 영상 탐지

Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning

December 17, 2025
저자: Yifei Li, Wenzhao Zheng, Yanran Zhang, Runze Sun, Yu Zheng, Lei Chen, Jie Zhou, Jiwen Lu
cs.AI

초록

AI 기반 영상 생성 기술의 오남용은 심각한 사회적 우려를 불러일으키며, 신뢰할 수 있는 AI 생성 영상 탐지기의 필요성을 절실히 부각시키고 있습니다. 그러나 기존 대부분의 방법은 이진 분류에 국한되어 있으며 인간이 이해할 수 있는 필요한 설명을 제공하지 못하는 한계가 있습니다. 본 논문에서는 AI 생성 영상에서 인간이 인지할 수 있는 시각적 아티팩트를 식별하고 이를 탐지와 설명을 위한 근거 증거로 활용하는 전문 멀티모달 대규모 언어 모델(MLLM)인 Skyra를 제안합니다. 이를 위해 세분화된 인간 주석이 달린 최초의 대규모 AI 생성 영상 아티팩트 데이터셋인 ViF-CoT-4K을 구축하여 지도 미세 조정(SFT)에 활용합니다. 그런 다음 2단계 학습 전략을 통해 모델의 시공간적 아티팩트 인지 능력, 설명 능력 및 탐지 정확도를 체계적으로 향상시킵니다. Skyra를 종합적으로 평가하기 위해 10개 이상의 최첨단 영상 생성기로 생성된 3,000개의 고품질 샘플로 구성된 벤치마크인 ViF-Bench를 도입합니다. 광범위한 실험을 통해 Skyra가 여러 벤치마크에서 기존 방법을 능가하는 동시에, 우리의 평가가 설명 가능한 AI 생성 영상 탐지 기술 발전에 유용한 통찰력을 제공함을 입증합니다.
English
The misuse of AI-driven video generation technologies has raised serious social concerns, highlighting the urgent need for reliable AI-generated video detectors. However, most existing methods are limited to binary classification and lack the necessary explanations for human interpretation. In this paper, we present Skyra, a specialized multimodal large language model (MLLM) that identifies human-perceivable visual artifacts in AI-generated videos and leverages them as grounded evidence for both detection and explanation. To support this objective, we construct ViF-CoT-4K for Supervised Fine-Tuning (SFT), which represents the first large-scale AI-generated video artifact dataset with fine-grained human annotations. We then develop a two-stage training strategy that systematically enhances our model's spatio-temporal artifact perception, explanation capability, and detection accuracy. To comprehensively evaluate Skyra, we introduce ViF-Bench, a benchmark comprising 3K high-quality samples generated by over ten state-of-the-art video generators. Extensive experiments demonstrate that Skyra surpasses existing methods across multiple benchmarks, while our evaluation yields valuable insights for advancing explainable AI-generated video detection.
PDF162December 19, 2025