VF-Eval: Bewertung multimodaler LLMs zur Generierung von Feedback für AIGC-Videos
VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos
May 29, 2025
Autoren: Tingyu Song, Tongyan Hu, Guo Gan, Yilun Zhao
cs.AI
Zusammenfassung
MLLMs (Multimodale Large Language Models) wurden in letzter Zeit intensiv für die Beantwortung von Fragen zu Videos untersucht. Die meisten bestehenden Bewertungen konzentrieren sich jedoch auf natürliche Videos und vernachlässigen synthetische Videos, wie z. B. KI-generierte Inhalte (AIGC). Gleichzeitig stützen sich einige Arbeiten zur Videogenerierung auf MLLMs, um die Qualität der generierten Videos zu bewerten, aber die Fähigkeiten von MLLMs zur Interpretation von AIGC-Videos sind weitgehend unerforscht. Um dies zu adressieren, schlagen wir einen neuen Benchmark, VF-Eval, vor, der vier Aufgaben einführt: Kohärenzvalidierung, Fehlerbewusstsein, Fehlertyp-Erkennung und Bewertung der Schlussfolgerungsfähigkeit, um die Fähigkeiten von MLLMs in Bezug auf AIGC-Videos umfassend zu bewerten. Wir evaluieren 13 führende MLLMs auf VF-Eval und stellen fest, dass selbst das leistungsstärkste Modell, GPT-4.1, Schwierigkeiten hat, durchgängig gute Leistungen in allen Aufgaben zu erzielen. Dies unterstreicht die anspruchsvolle Natur unseres Benchmarks. Zusätzlich führen wir ein Experiment, RePrompt, durch, um die praktischen Anwendungen von VF-Eval bei der Verbesserung der Videogenerierung zu untersuchen. Dies zeigt, dass eine stärkere Ausrichtung von MLLMs an menschlichem Feedback die Videogenerierung verbessern kann.
English
MLLMs have been widely studied for video question answering recently.
However, most existing assessments focus on natural videos, overlooking
synthetic videos, such as AI-generated content (AIGC). Meanwhile, some works in
video generation rely on MLLMs to evaluate the quality of generated videos, but
the capabilities of MLLMs on interpreting AIGC videos remain largely
underexplored. To address this, we propose a new benchmark, VF-Eval, which
introduces four tasks-coherence validation, error awareness, error type
detection, and reasoning evaluation-to comprehensively evaluate the abilities
of MLLMs on AIGC videos. We evaluate 13 frontier MLLMs on VF-Eval and find that
even the best-performing model, GPT-4.1, struggles to achieve consistently good
performance across all tasks. This highlights the challenging nature of our
benchmark. Additionally, to investigate the practical applications of VF-Eval
in improving video generation, we conduct an experiment, RePrompt,
demonstrating that aligning MLLMs more closely with human feedback can benefit
video generation.Summary
AI-Generated Summary