ChatPaper.aiChatPaper

Skyra: KI-generierte Videoerkennung durch fundierte Artefaktanalyse

Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning

December 17, 2025
papers.authors: Yifei Li, Wenzhao Zheng, Yanran Zhang, Runze Sun, Yu Zheng, Lei Chen, Jie Zhou, Jiwen Lu
cs.AI

papers.abstract

Der Missbrauch von KI-gesteuerter Videogenerierungstechnologie hat ernsthafte gesellschaftliche Bedenken aufgeworfen und unterstreicht die dringende Notwendigkeit zuverlässiger Detektoren für KI-generierte Videos. Bisher beschränken sich die meisten existierenden Methoden jedoch auf binäre Klassifikation und entbehren der notwendigen Erklärungen für die menschliche Interpretation. In diesem Artikel stellen wir Skyra vor, ein spezialisiertes multimodales großes Sprachmodell (MLLM), das menschlich wahrnehmbare visuelle Artefakte in KI-generierten Videos identifiziert und diese als fundierte Beweise sowohl für die Detektion als auch für die Erklärung nutzt. Um dieses Ziel zu unterstützen, erstellen wir ViF-CoT-4K für Supervised Fine-Tuning (SFT), den ersten groß angelegten Datensatz von Artefakten in KI-generierten Videos mit feingranularen menschlichen Annotationen. Anschließend entwickeln wir eine zweistufige Trainingsstrategie, die systematisch die räumlich-zeitliche Artefaktwahrnehmung, die Erklärungsfähigkeit und die Detektionsgenauigkeit unseres Modells verbessert. Für eine umfassende Evaluation von Skyra führen wir ViF-Bench ein, einen Benchmark, der 3.000 hochwertige Beispiele umfasst, die von mehr als zehn modernsten Video-Generatoren erzeugt wurden. Umfangreiche Experimente belegen, dass Skyra existierende Methoden über mehrere Benchmarks hinweg übertrifft, während unsere Evaluation wertvolle Einblicke für die Weiterentwicklung erklärbarer KI-generierter Videodetektion liefert.
English
The misuse of AI-driven video generation technologies has raised serious social concerns, highlighting the urgent need for reliable AI-generated video detectors. However, most existing methods are limited to binary classification and lack the necessary explanations for human interpretation. In this paper, we present Skyra, a specialized multimodal large language model (MLLM) that identifies human-perceivable visual artifacts in AI-generated videos and leverages them as grounded evidence for both detection and explanation. To support this objective, we construct ViF-CoT-4K for Supervised Fine-Tuning (SFT), which represents the first large-scale AI-generated video artifact dataset with fine-grained human annotations. We then develop a two-stage training strategy that systematically enhances our model's spatio-temporal artifact perception, explanation capability, and detection accuracy. To comprehensively evaluate Skyra, we introduce ViF-Bench, a benchmark comprising 3K high-quality samples generated by over ten state-of-the-art video generators. Extensive experiments demonstrate that Skyra surpasses existing methods across multiple benchmarks, while our evaluation yields valuable insights for advancing explainable AI-generated video detection.
PDF162December 19, 2025