Skyra: Detecção de Vídeos Gerados por IA via Raciocínio de Artefatos Fundamentados

Resumo

O uso indevido de tecnologias de geração de vídeo baseadas em IA tem levantado sérias preocupações sociais, destacando a necessidade urgente de detectores confiáveis de vídeos gerados por IA. No entanto, a maioria dos métodos existentes limita-se à classificação binária e carece das explicações necessárias para a interpretação humana. Neste artigo, apresentamos Skyra, um modelo de linguagem grande multimodal (MLLM) especializado que identifica artefatos visuais perceptíveis ao ser humano em vídeos gerados por IA e os utiliza como evidência fundamentada para detecção e explicação. Para apoiar este objetivo, construímos o ViF-CoT-4K para Fine-Tuning Supervisionado (SFT), que representa o primeiro conjunto de dados em larga escala de artefatos de vídeos gerados por IA com anotações humanas refinadas. Desenvolvemos, então, uma estratégia de treinamento em duas etapas que aprimora sistematicamente a percepção espaço-temporal de artefatos, a capacidade de explicação e a precisão de detecção do nosso modelo. Para avaliar abrangentemente o Skyra, introduzimos o ViF-Bench, um benchmark composto por 3 mil amostras de alta qualidade geradas por mais de dez geradores de vídeo state-of-the-art. Experimentos extensivos demonstram que o Skyra supera os métodos existentes em múltiplos benchmarks, enquanto nossa avaliação fornece insights valiosos para o avanço da detecção explicável de vídeos gerados por IA.

English

The misuse of AI-driven video generation technologies has raised serious social concerns, highlighting the urgent need for reliable AI-generated video detectors. However, most existing methods are limited to binary classification and lack the necessary explanations for human interpretation. In this paper, we present Skyra, a specialized multimodal large language model (MLLM) that identifies human-perceivable visual artifacts in AI-generated videos and leverages them as grounded evidence for both detection and explanation. To support this objective, we construct ViF-CoT-4K for Supervised Fine-Tuning (SFT), which represents the first large-scale AI-generated video artifact dataset with fine-grained human annotations. We then develop a two-stage training strategy that systematically enhances our model's spatio-temporal artifact perception, explanation capability, and detection accuracy. To comprehensively evaluate Skyra, we introduce ViF-Bench, a benchmark comprising 3K high-quality samples generated by over ten state-of-the-art video generators. Extensive experiments demonstrate that Skyra surpasses existing methods across multiple benchmarks, while our evaluation yields valuable insights for advancing explainable AI-generated video detection.

Skyra: Detecção de Vídeos Gerados por IA via Raciocínio de Artefatos Fundamentados

Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning

Resumo

Support