Artifact-Bench: Evaluación de MLLMs en la Detección y Evaluación de Artefactos de Videos Generados por IA.

Resumen

Los modelos generativos de video recientes han mejorado significativamente el realismo de los videos generados por inteligencia artificial; sin embargo, sus resultados aún presentan artefactos como inconsistencias temporales, distorsiones estructurales e incoherencias semánticas. Si bien los Modelos de Lenguaje Grandes Multimodales (MLLMs) demuestran una sólida capacidad de comprensión visual, aún no está claro hasta qué punto pueden percibir y razonar sobre dichos artefactos. Los puntos de referencia existentes a menudo carecen de una evaluación sistemática de la percepción de artefactos y del razonamiento diagnóstico detallado, especialmente en diversos dominios de videos generados por IA más allá del contenido fotorrealista. Para abordar esta brecha, presentamos Artifact-Bench, un punto de referencia integral para evaluar MLLMs en la detección y análisis de artefactos en videos generados por IA. Primero, establecemos una taxonomía jerárquica de tres niveles para los artefactos de realismo, que abarca videos fotorrealistas, animados y de estilo CGI. Basándose en esta taxonomía, Artifact-Bench define tres tareas complementarias: clasificación de videos reales frente a generados por IA, comparación de realismo por pares e identificación detallada de artefactos. Los experimentos con 19 MLLMs líderes revelan limitaciones sustanciales en la percepción y el razonamiento sobre artefactos, con muchos modelos acercándose a un rendimiento aleatorio o incluso inferior al aleatorio en entornos desafiantes. Además, observamos una desalineación significativa entre los juicios de los MLLMs y las preferencias perceptivas humanas, lo que destaca su limitada fiabilidad como evaluadores generales del realismo de videos generados por IA.

English

Recent video generative models have greatly improved the realism of AI-generated videos, yet their outputs still exhibit artifacts such as temporal inconsistencies, structural distortions, and semantic incoherence. While Multimodal Large Language Models (MLLMs) show strong visual understanding capabilities, their ability to perceive and reason about such artifacts remains unclear. Existing benchmarks often lack systematic evaluation of artifact-aware perception and fine-grained diagnostic reasoning, especially across diverse AI-generated video domains beyond photorealistic content. To address this gap, we introduce Artifact-Bench, a comprehensive benchmark for evaluating MLLMs on AI-generated video artifact detection and analysis. We first establish a three-level hierarchical taxonomy of realism artifacts, covering photorealistic, animated, and CG-style videos. Based on this taxonomy, Artifact-Bench defines three complementary tasks: real vs. AI-generated video classification, pairwise realism comparison, and fine-grained artifact identification. Experiments on 19 leading MLLMs reveal substantial limitations in artifact perception and reasoning, with many models approaching random or even below-random performance in challenging settings. We further observe significant misalignment between MLLM judgments and human perceptual preferences, highlighting their limited reliability as general evaluators for AI-generated video realism.