Artifact-Bench : Évaluation des MLLM sur la détection et l’évaluation des artéfacts des vidéos générées par IA

Résumé

Les récents modèles génératifs vidéo ont considérablement amélioré le réalisme des vidéos générées par intelligence artificielle, mais leurs sorties présentent encore des artefacts tels que des incohérences temporelles, des distorsions structurelles et une incohérence sémantique. Bien que les modèles de langage multimodaux de grande taille (MLLMs) démontrent de fortes capacités de compréhension visuelle, leur capacité à percevoir et à raisonner sur de tels artefacts reste incertaine. Les benchmarks existants manquent souvent d'une évaluation systématique de la perception des artefacts et du raisonnement diagnostique à grain fin, en particulier à travers divers domaines de vidéos générées par IA au-delà du contenu photoréaliste. Pour combler cette lacune, nous présentons Artifact-Bench, un benchmark complet pour évaluer les MLLMs sur la détection et l'analyse des artefacts dans les vidéos générées par IA. Nous établissons d'abord une taxonomie hiérarchique à trois niveaux des artefacts de réalisme, couvrant les vidéos photoréalistes, animées et de style CG. Sur la base de cette taxonomie, Artifact-Bench définit trois tâches complémentaires : classification des vidéos réelles vs générées par IA, comparaison par paires du réalisme, et identification fine des artefacts. Des expériences sur 19 MLLMs de premier plan révèlent des limitations substantielles dans la perception et le raisonnement des artefacts, de nombreux modèles approchant des performances aléatoires, voire inférieures au hasard dans des contextes difficiles. Nous observons en outre un désalignement significatif entre les jugements des MLLMs et les préférences perceptuelles humaines, soulignant leur fiabilité limitée en tant qu'évaluateurs généraux du réalisme des vidéos générées par IA.

English

Recent video generative models have greatly improved the realism of AI-generated videos, yet their outputs still exhibit artifacts such as temporal inconsistencies, structural distortions, and semantic incoherence. While Multimodal Large Language Models (MLLMs) show strong visual understanding capabilities, their ability to perceive and reason about such artifacts remains unclear. Existing benchmarks often lack systematic evaluation of artifact-aware perception and fine-grained diagnostic reasoning, especially across diverse AI-generated video domains beyond photorealistic content. To address this gap, we introduce Artifact-Bench, a comprehensive benchmark for evaluating MLLMs on AI-generated video artifact detection and analysis. We first establish a three-level hierarchical taxonomy of realism artifacts, covering photorealistic, animated, and CG-style videos. Based on this taxonomy, Artifact-Bench defines three complementary tasks: real vs. AI-generated video classification, pairwise realism comparison, and fine-grained artifact identification. Experiments on 19 leading MLLMs reveal substantial limitations in artifact perception and reasoning, with many models approaching random or even below-random performance in challenging settings. We further observe significant misalignment between MLLM judgments and human perceptual preferences, highlighting their limited reliability as general evaluators for AI-generated video realism.