ChatPaper.aiChatPaper

VF-Eval : Évaluation des LLM multimodaux pour la génération de retours sur les vidéos AIGC

VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos

May 29, 2025
Auteurs: Tingyu Song, Tongyan Hu, Guo Gan, Yilun Zhao
cs.AI

Résumé

Les MLLM (Modèles Multimodaux à Grande Échelle) ont été largement étudiés récemment pour la tâche de réponse à des questions sur des vidéos. Cependant, la plupart des évaluations existantes se concentrent sur des vidéos naturelles, négligeant les vidéos synthétiques, telles que le contenu généré par IA (AIGC). Par ailleurs, certaines recherches sur la génération de vidéos s'appuient sur les MLLM pour évaluer la qualité des vidéos générées, mais les capacités des MLLM à interpréter les vidéos AIGC restent largement sous-explorées. Pour remédier à cela, nous proposons un nouveau benchmark, VF-Eval, qui introduit quatre tâches—validation de la cohérence, détection des erreurs, identification du type d'erreur et évaluation du raisonnement—afin d'évaluer de manière exhaustive les capacités des MLLM sur les vidéos AIGC. Nous évaluons 13 MLLM de pointe sur VF-Eval et constatons que même le modèle le plus performant, GPT-4.1, peine à obtenir des performances constantes sur toutes les tâches. Cela souligne la nature exigeante de notre benchmark. De plus, pour explorer les applications pratiques de VF-Eval dans l'amélioration de la génération de vidéos, nous menons une expérience, RePrompt, démontrant qu'un alignement plus étroit des MLLM avec les retours humains peut bénéficier à la génération de vidéos.
English
MLLMs have been widely studied for video question answering recently. However, most existing assessments focus on natural videos, overlooking synthetic videos, such as AI-generated content (AIGC). Meanwhile, some works in video generation rely on MLLMs to evaluate the quality of generated videos, but the capabilities of MLLMs on interpreting AIGC videos remain largely underexplored. To address this, we propose a new benchmark, VF-Eval, which introduces four tasks-coherence validation, error awareness, error type detection, and reasoning evaluation-to comprehensively evaluate the abilities of MLLMs on AIGC videos. We evaluate 13 frontier MLLMs on VF-Eval and find that even the best-performing model, GPT-4.1, struggles to achieve consistently good performance across all tasks. This highlights the challenging nature of our benchmark. Additionally, to investigate the practical applications of VF-Eval in improving video generation, we conduct an experiment, RePrompt, demonstrating that aligning MLLMs more closely with human feedback can benefit video generation.

Summary

AI-Generated Summary

PDF562May 30, 2025