ChatPaper.aiChatPaper

Skyra: 接地されたアーティファクト推論によるAI生成動画検出

Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning

December 17, 2025
著者: Yifei Li, Wenzhao Zheng, Yanran Zhang, Runze Sun, Yu Zheng, Lei Chen, Jie Zhou, Jiwen Lu
cs.AI

要旨

AI駆動の映像生成技術の悪用は深刻な社会的懸念を引き起こしており、信頼性の高いAI生成映像検出システムの緊急な必要性が浮き彫りになっています。しかし、既存手法の多くは二値分類に限定されており、人間による解釈に必要な説明が不足しています。本論文では、AI生成映像における人間が知覚可能な視覚的アーティファクトを特定し、それを検出と説明の両方に対する根拠ある証拠として活用する専門的なマルチモーダル大規模言語モデル「Skyra」を提案します。この目的を支援するため、細粒度な人間による注釈を付与した初の大規模AI生成映像アーティファクトデータセットであるViF-CoT-4Kを構築し、教師ありファインチューニングに活用します。さらに、モデルの時空間的アーティファクト知覚能力、説明能力、検出精度を体系的に強化する2段階の学習戦略を開発します。Skyraを総合的に評価するため、10以上の最先端映像生成モデルで生成された3,000の高品質サンプルから構成されるベンチマークViF-Benchを導入します。大規模な実験により、Skyraが複数のベンチマークで既存手法を凌駕することを実証するとともに、説明可能なAI生成映像検出の進展に向けた貴重な知見を得ました。
English
The misuse of AI-driven video generation technologies has raised serious social concerns, highlighting the urgent need for reliable AI-generated video detectors. However, most existing methods are limited to binary classification and lack the necessary explanations for human interpretation. In this paper, we present Skyra, a specialized multimodal large language model (MLLM) that identifies human-perceivable visual artifacts in AI-generated videos and leverages them as grounded evidence for both detection and explanation. To support this objective, we construct ViF-CoT-4K for Supervised Fine-Tuning (SFT), which represents the first large-scale AI-generated video artifact dataset with fine-grained human annotations. We then develop a two-stage training strategy that systematically enhances our model's spatio-temporal artifact perception, explanation capability, and detection accuracy. To comprehensively evaluate Skyra, we introduce ViF-Bench, a benchmark comprising 3K high-quality samples generated by over ten state-of-the-art video generators. Extensive experiments demonstrate that Skyra surpasses existing methods across multiple benchmarks, while our evaluation yields valuable insights for advancing explainable AI-generated video detection.
PDF162December 19, 2025