Skyra: Detección de Vídeos Generados por IA mediante Razonamiento de Artefactos Fundamentados
Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning
December 17, 2025
Autores: Yifei Li, Wenzhao Zheng, Yanran Zhang, Runze Sun, Yu Zheng, Lei Chen, Jie Zhou, Jiwen Lu
cs.AI
Resumen
El uso indebido de las tecnologías de generación de vídeos impulsadas por IA ha generado serias preocupaciones sociales, destacando la necesidad urgente de detectores fiables de vídeos generados por IA. Sin embargo, la mayoría de los métodos existentes se limitan a la clasificación binaria y carecen de las explicaciones necesarias para la interpretación humana. En este artículo, presentamos Skyra, un modelo de lenguaje multimodal (MLLM) especializado que identifica artefactos visuales perceptibles para humanos en vídeos generados por IA y los utiliza como evidencia fundamentada para la detección y la explicación. Para respaldar este objetivo, construimos ViF-CoT-4K para el ajuste fino supervisado (SFT), que representa el primer conjunto de datos a gran escala de artefactos en vídeos generados por IA con anotaciones humanas detalladas. Desarrollamos luego una estrategia de entrenamiento en dos etapas que mejora sistemáticamente la percepción espacio-temporal de artefactos, la capacidad de explicación y la precisión de detección de nuestro modelo. Para evaluar Skyra de manera integral, introducimos ViF-Bench, un punto de referencia que comprende 3.000 muestras de alta calidad generadas por más de diez generadores de vídeo de última generación. Experimentos exhaustivos demuestran que Skyra supera a los métodos existentes en múltiples benchmarks, mientras que nuestra evaluación ofrece perspectivas valiosas para avanzar en la detección explicable de vídeos generados por IA.
English
The misuse of AI-driven video generation technologies has raised serious social concerns, highlighting the urgent need for reliable AI-generated video detectors. However, most existing methods are limited to binary classification and lack the necessary explanations for human interpretation. In this paper, we present Skyra, a specialized multimodal large language model (MLLM) that identifies human-perceivable visual artifacts in AI-generated videos and leverages them as grounded evidence for both detection and explanation. To support this objective, we construct ViF-CoT-4K for Supervised Fine-Tuning (SFT), which represents the first large-scale AI-generated video artifact dataset with fine-grained human annotations. We then develop a two-stage training strategy that systematically enhances our model's spatio-temporal artifact perception, explanation capability, and detection accuracy. To comprehensively evaluate Skyra, we introduce ViF-Bench, a benchmark comprising 3K high-quality samples generated by over ten state-of-the-art video generators. Extensive experiments demonstrate that Skyra surpasses existing methods across multiple benchmarks, while our evaluation yields valuable insights for advancing explainable AI-generated video detection.