VF-Eval: Bewertung multimodaler LLMs zur Generierung von Feedback für AIGC-Videos

papers.abstract

MLLMs (Multimodale Large Language Models) wurden in letzter Zeit intensiv für die Beantwortung von Fragen zu Videos untersucht. Die meisten bestehenden Bewertungen konzentrieren sich jedoch auf natürliche Videos und vernachlässigen synthetische Videos, wie z. B. KI-generierte Inhalte (AIGC). Gleichzeitig stützen sich einige Arbeiten zur Videogenerierung auf MLLMs, um die Qualität der generierten Videos zu bewerten, aber die Fähigkeiten von MLLMs zur Interpretation von AIGC-Videos sind weitgehend unerforscht. Um dies zu adressieren, schlagen wir einen neuen Benchmark, VF-Eval, vor, der vier Aufgaben einführt: Kohärenzvalidierung, Fehlerbewusstsein, Fehlertyp-Erkennung und Bewertung der Schlussfolgerungsfähigkeit, um die Fähigkeiten von MLLMs in Bezug auf AIGC-Videos umfassend zu bewerten. Wir evaluieren 13 führende MLLMs auf VF-Eval und stellen fest, dass selbst das leistungsstärkste Modell, GPT-4.1, Schwierigkeiten hat, durchgängig gute Leistungen in allen Aufgaben zu erzielen. Dies unterstreicht die anspruchsvolle Natur unseres Benchmarks. Zusätzlich führen wir ein Experiment, RePrompt, durch, um die praktischen Anwendungen von VF-Eval bei der Verbesserung der Videogenerierung zu untersuchen. Dies zeigt, dass eine stärkere Ausrichtung von MLLMs an menschlichem Feedback die Videogenerierung verbessern kann.

English

MLLMs have been widely studied for video question answering recently. However, most existing assessments focus on natural videos, overlooking synthetic videos, such as AI-generated content (AIGC). Meanwhile, some works in video generation rely on MLLMs to evaluate the quality of generated videos, but the capabilities of MLLMs on interpreting AIGC videos remain largely underexplored. To address this, we propose a new benchmark, VF-Eval, which introduces four tasks-coherence validation, error awareness, error type detection, and reasoning evaluation-to comprehensively evaluate the abilities of MLLMs on AIGC videos. We evaluate 13 frontier MLLMs on VF-Eval and find that even the best-performing model, GPT-4.1, struggles to achieve consistently good performance across all tasks. This highlights the challenging nature of our benchmark. Additionally, to investigate the practical applications of VF-Eval in improving video generation, we conduct an experiment, RePrompt, demonstrating that aligning MLLMs more closely with human feedback can benefit video generation.

VF-Eval: Bewertung multimodaler LLMs zur Generierung von Feedback für AIGC-Videos

VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos

papers.abstract

Support