Artifact-Bench: Evaluierung von MLLMs zur Erkennung und Bewertung von Artefakten in KI-generierten Videos

Zusammenfassung

Neuere Videogenerierungsmodelle haben die Realitätstreue KI-generierter Videos erheblich verbessert, dennoch weisen ihre Ausgaben weiterhin Artefakte wie zeitliche Inkonsistenzen, strukturelle Verzerrungen und semantische Inkohärenz auf. Während Multimodale Große Sprachmodelle (MLLMs) starke visuelle Verständnisfähigkeiten besitzen, bleibt unklar, inwieweit sie solche Artefakte wahrnehmen und darüber schlussfolgern können. Existierende Benchmarks ermangeln oft einer systematischen Bewertung der artefaktbewussten Wahrnehmung und feinkörnigen diagnostischen Argumentation, insbesondere über verschiedene KI-generierte Videobereiche hinaus, die über fotorealistische Inhalte hinausgehen. Um diese Lücke zu schließen, führen wir Artifact-Bench ein, einen umfassenden Benchmark zur Bewertung von MLLMs hinsichtlich der Erkennung und Analyse von Artefakten in KI-generierten Videos. Zunächst etablieren wir eine dreistufige hierarchische Taxonomie von Realismus-Artefakten, die fotorealistische, animierte und CG-stilisierte Videos abdeckt. Basierend auf dieser Taxonomie definiert Artifact-Bench drei komplementäre Aufgaben: die Klassifikation von echten vs. KI-generierten Videos, den paarweisen Realismusvergleich und die feinkörnige Artefaktidentifikation. Experimente mit 19 führenden MLLMs zeigen erhebliche Einschränkungen in der Artefaktwahrnehmung und -argumentation auf, wobei viele Modelle in anspruchsvollen Umgebungen eine zufällige oder sogar unterzufällige Leistung erbringen. Darüber hinaus beobachten wir eine signifikante Fehlanpassung zwischen den Urteilen der MLLMs und den menschlichen Wahrnehmungspräferenzen, was ihre begrenzte Zuverlässigkeit als allgemeine Bewerter für die Realitätstreue KI-generierter Videos unterstreicht.

English

Recent video generative models have greatly improved the realism of AI-generated videos, yet their outputs still exhibit artifacts such as temporal inconsistencies, structural distortions, and semantic incoherence. While Multimodal Large Language Models (MLLMs) show strong visual understanding capabilities, their ability to perceive and reason about such artifacts remains unclear. Existing benchmarks often lack systematic evaluation of artifact-aware perception and fine-grained diagnostic reasoning, especially across diverse AI-generated video domains beyond photorealistic content. To address this gap, we introduce Artifact-Bench, a comprehensive benchmark for evaluating MLLMs on AI-generated video artifact detection and analysis. We first establish a three-level hierarchical taxonomy of realism artifacts, covering photorealistic, animated, and CG-style videos. Based on this taxonomy, Artifact-Bench defines three complementary tasks: real vs. AI-generated video classification, pairwise realism comparison, and fine-grained artifact identification. Experiments on 19 leading MLLMs reveal substantial limitations in artifact perception and reasoning, with many models approaching random or even below-random performance in challenging settings. We further observe significant misalignment between MLLM judgments and human perceptual preferences, highlighting their limited reliability as general evaluators for AI-generated video realism.