Skyra: AI-gegenereerde videodetectie via gefundeerde artefactenredenering
Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning
December 17, 2025
Auteurs: Yifei Li, Wenzhao Zheng, Yanran Zhang, Runze Sun, Yu Zheng, Lei Chen, Jie Zhou, Jiwen Lu
cs.AI
Samenvatting
Het misbruik van AI-gestuurde videogeneratietechnologieën heeft ernstige maatschappelijke zorgen doen rijzen, wat de dringende behoefte aan betrouwbare AI-gegenereerde videodetectors benadrukt. De meeste bestaande methoden zijn echter beperkt tot binaire classificatie en ontberen de nodige uitleg voor menselijke interpretatie. In dit artikel presenteren we Skyra, een gespecialiseerd multimodaal groot taalmodel (MLLM) dat door mensen waarneembare visuele artefacten in AI-gegenereerde video's identificeert en deze als gefundeerd bewijsmateriaal gebruikt voor zowel detectie als uitleg. Om dit doel te ondersteunen, construeren we ViF-CoT-4K voor Supervised Fine-Tuning (SFT), de eerste grootschalige dataset van AI-gegenereerde video-artefacten met fijnmazige menselijke annotaties. Vervolgens ontwikkelen we een tweefasentrainingsstrategie die systematisch het spatio-temporele artefactperceptievermogen, de uitlegcapaciteit en de detectienauwkeurigheid van ons model verbetert. Om Skyra uitgebreid te evalueren, introduceren we ViF-Bench, een benchmark bestaande uit 3K hoogwaardige samples gegenereerd door meer dan tien state-of-the-art videogeneratoren. Uitgebreide experimenten tonen aan dat Skyra de bestaande methoden op meerdere benchmarks overtreft, terwijl onze evaluatie waardevolle inzichten oplevert voor de vooruitgang van verklaarbare AI-gegenereerde videodetectie.
English
The misuse of AI-driven video generation technologies has raised serious social concerns, highlighting the urgent need for reliable AI-generated video detectors. However, most existing methods are limited to binary classification and lack the necessary explanations for human interpretation. In this paper, we present Skyra, a specialized multimodal large language model (MLLM) that identifies human-perceivable visual artifacts in AI-generated videos and leverages them as grounded evidence for both detection and explanation. To support this objective, we construct ViF-CoT-4K for Supervised Fine-Tuning (SFT), which represents the first large-scale AI-generated video artifact dataset with fine-grained human annotations. We then develop a two-stage training strategy that systematically enhances our model's spatio-temporal artifact perception, explanation capability, and detection accuracy. To comprehensively evaluate Skyra, we introduce ViF-Bench, a benchmark comprising 3K high-quality samples generated by over ten state-of-the-art video generators. Extensive experiments demonstrate that Skyra surpasses existing methods across multiple benchmarks, while our evaluation yields valuable insights for advancing explainable AI-generated video detection.