ChatPaper.aiChatPaper

Skyra: Rilevamento di Video Generati dall'IA tramite Ragionamento sugli Artefatti Contestualizzato

Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning

December 17, 2025
Autori: Yifei Li, Wenzhao Zheng, Yanran Zhang, Runze Sun, Yu Zheng, Lei Chen, Jie Zhou, Jiwen Lu
cs.AI

Abstract

L'uso improprio delle tecnologie di generazione video basate sull'intelligenza artificiale ha sollevato serie preoccupazioni sociali, evidenziando l'urgente necessità di rilevatori affidabili per video generati da IA. Tuttavia, la maggior parte dei metodi esistenti si limita alla classificazione binaria e manca delle spiegazioni necessarie per l'interpretazione umana. In questo articolo presentiamo Skyra, un modello linguistico multimodale di grandi dimensioni (MLLM) specializzato, che identifica gli artefatti visivi percepibili dall'uomo nei video generati da IA e li utilizza come evidenza concreta sia per il rilevamento che per la spiegazione. Per supportare questo obiettivo, abbiamo costruito ViF-CoT-4K per l'addestramento supervisionato fine (SFT), che rappresenta il primo dataset su larga scala di artefatti di video generati da IA con annotazioni umane granulari. Successivamente sviluppiamo una strategia di addestramento in due fasi che migliora sistematicamente la percezione spazio-temporale degli artefatti, la capacità esplicativa e l'accuratezza di rilevamento del nostro modello. Per valutare in modo completo Skyra, introduciamo ViF-Bench, un benchmark comprendente 3.000 campioni di alta qualità generati da oltre dieci generatori video all'avanguardia. Esperimenti estensivi dimostrano che Skyra supera i metodi esistenti su molteplici benchmark, mentre la nostra valutazione fornisce spunti preziosi per far progredire il rilevamento spiegabile dei video generati da IA.
English
The misuse of AI-driven video generation technologies has raised serious social concerns, highlighting the urgent need for reliable AI-generated video detectors. However, most existing methods are limited to binary classification and lack the necessary explanations for human interpretation. In this paper, we present Skyra, a specialized multimodal large language model (MLLM) that identifies human-perceivable visual artifacts in AI-generated videos and leverages them as grounded evidence for both detection and explanation. To support this objective, we construct ViF-CoT-4K for Supervised Fine-Tuning (SFT), which represents the first large-scale AI-generated video artifact dataset with fine-grained human annotations. We then develop a two-stage training strategy that systematically enhances our model's spatio-temporal artifact perception, explanation capability, and detection accuracy. To comprehensively evaluate Skyra, we introduce ViF-Bench, a benchmark comprising 3K high-quality samples generated by over ten state-of-the-art video generators. Extensive experiments demonstrate that Skyra surpasses existing methods across multiple benchmarks, while our evaluation yields valuable insights for advancing explainable AI-generated video detection.
PDF162December 19, 2025