Skyra : Détection de vidéos générées par IA via un raisonnement fondé sur les artefacts
Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning
December 17, 2025
papers.authors: Yifei Li, Wenzhao Zheng, Yanran Zhang, Runze Sun, Yu Zheng, Lei Chen, Jie Zhou, Jiwen Lu
cs.AI
papers.abstract
L'utilisation abusive des technologies de génération vidéo pilotées par l'IA a soulevé de sérieuses préoccupations sociétales, soulignant le besoin urgent de détecteurs fiables de vidéos générées par l'IA. Cependant, la plupart des méthodes existantes se limitent à une classification binaire et manquent des explications nécessaires à l'interprétation humaine. Dans cet article, nous présentons Skyra, un modèle de langage multimodal (MLLM) spécialisé qui identifie les artefacts visuels perceptibles par l'homme dans les vidéos générées par l'IA et les utilise comme preuves tangibles pour la détection et l'explication. Pour soutenir cet objectif, nous avons constitué ViF-CoT-4K pour le réglage fin supervisé (SFT), qui représente la première base de données à grande échelle d'artefacts de vidéos générées par l'IA avec des annotations humaines granulaires. Nous avons ensuite développé une stratégie d'entraînement en deux étapes qui améliore systématiquement la perception spatio-temporelle des artefacts, la capacité d'explication et la précision de détection de notre modèle. Pour évaluer Skyra de manière exhaustive, nous introduisons ViF-Bench, un benchmark comprenant 3 000 échantillons de haute qualité générés par plus de dix générateurs vidéo de pointe. Des expériences approfondies démontrent que Skyra surpasse les méthodes existantes sur plusieurs benchmarks, tandis que notre évaluation fournit des insights précieux pour faire progresser la détection explicable des vidéos générées par l'IA.
English
The misuse of AI-driven video generation technologies has raised serious social concerns, highlighting the urgent need for reliable AI-generated video detectors. However, most existing methods are limited to binary classification and lack the necessary explanations for human interpretation. In this paper, we present Skyra, a specialized multimodal large language model (MLLM) that identifies human-perceivable visual artifacts in AI-generated videos and leverages them as grounded evidence for both detection and explanation. To support this objective, we construct ViF-CoT-4K for Supervised Fine-Tuning (SFT), which represents the first large-scale AI-generated video artifact dataset with fine-grained human annotations. We then develop a two-stage training strategy that systematically enhances our model's spatio-temporal artifact perception, explanation capability, and detection accuracy. To comprehensively evaluate Skyra, we introduce ViF-Bench, a benchmark comprising 3K high-quality samples generated by over ten state-of-the-art video generators. Extensive experiments demonstrate that Skyra surpasses existing methods across multiple benchmarks, while our evaluation yields valuable insights for advancing explainable AI-generated video detection.