Skyra: Обнаружение сгенерированных ИИ видео через обоснованный анализ артефактов
Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning
December 17, 2025
Авторы: Yifei Li, Wenzhao Zheng, Yanran Zhang, Runze Sun, Yu Zheng, Lei Chen, Jie Zhou, Jiwen Lu
cs.AI
Аннотация
Неправомерное использование технологий генерации видео на основе искусственного интеллекта вызвало серьезную общественную озабоченность, подчеркнув острую необходимость в надежных детекторах видео, созданных ИИ. Однако большинство существующих методов ограничиваются бинарной классификацией и не предоставляют необходимых объяснений для интерпретации человеком. В данной статье мы представляем Skyra — специализированную мультимодальную большую языковую модель (MLLM), которая идентифицирует визуальные артефакты, воспринимаемые человеком, в видео, сгенерированных ИИ, и использует их в качестве обоснованных доказательств как для обнаружения, так и для объяснения. Для достижения этой цели мы создали ViF-CoT-4K для контролируемого тонкого обучения (SFT) — первый масштабный набор данных об артефактах в видео, созданных ИИ, с детализированными аннотациями, выполненными человеком. Затем мы разработали двухэтапную стратегию обучения, которая систематически улучшает пространственно-временное восприятие артефактов, способность к объяснению и точность обнаружения нашей модели. Для всесторонней оценки Skyra мы представляем ViF-Bench — эталонный набор, содержащий 3 тыс. высококачественных образцов, сгенерированных более чем десятью передовыми генераторами видео. Многочисленные эксперименты демонстрируют, что Skyra превосходит существующие методы по нескольким эталонным тестам, а наша оценка дает ценные insights для развития объяснимого обнаружения видео, сгенерированных ИИ.
English
The misuse of AI-driven video generation technologies has raised serious social concerns, highlighting the urgent need for reliable AI-generated video detectors. However, most existing methods are limited to binary classification and lack the necessary explanations for human interpretation. In this paper, we present Skyra, a specialized multimodal large language model (MLLM) that identifies human-perceivable visual artifacts in AI-generated videos and leverages them as grounded evidence for both detection and explanation. To support this objective, we construct ViF-CoT-4K for Supervised Fine-Tuning (SFT), which represents the first large-scale AI-generated video artifact dataset with fine-grained human annotations. We then develop a two-stage training strategy that systematically enhances our model's spatio-temporal artifact perception, explanation capability, and detection accuracy. To comprehensively evaluate Skyra, we introduce ViF-Bench, a benchmark comprising 3K high-quality samples generated by over ten state-of-the-art video generators. Extensive experiments demonstrate that Skyra surpasses existing methods across multiple benchmarks, while our evaluation yields valuable insights for advancing explainable AI-generated video detection.