ChatPaper.aiChatPaper

VBench-2.0 : Progression de la suite de benchmarks pour la génération vidéo en matière de fidélité intrinsèque

VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness

March 27, 2025
Auteurs: Dian Zheng, Ziqi Huang, Hongbo Liu, Kai Zou, Yinan He, Fan Zhang, Yuanhan Zhang, Jingwen He, Wei-Shi Zheng, Yu Qiao, Ziwei Liu
cs.AI

Résumé

La génération vidéo a considérablement progressé, évoluant de la production de résultats irréalistes à la création de vidéos visuellement convaincantes et temporellement cohérentes. Pour évaluer ces modèles génératifs vidéo, des benchmarks tels que VBench ont été développés pour mesurer leur fidélité, en prenant en compte des facteurs comme l'esthétique par image, la cohérence temporelle et l'adhésion basique aux prompts. Cependant, ces aspects représentent principalement une fidélité superficielle, qui se concentre sur l'apparence visuellement convaincante de la vidéo plutôt que sur son adhésion aux principes du monde réel. Bien que les modèles récents performent de mieux en mieux sur ces métriques, ils peinent encore à générer des vidéos qui ne sont pas seulement visuellement plausibles, mais fondamentalement réalistes. Pour atteindre de véritables "modèles du monde" via la génération vidéo, la prochaine frontière réside dans la fidélité intrinsèque, afin de garantir que les vidéos générées respectent les lois physiques, le raisonnement de bon sens, la justesse anatomique et l'intégrité compositionnelle. Atteindre ce niveau de réalisme est essentiel pour des applications telles que la réalisation de films assistée par l'IA et la modélisation de mondes simulés. Pour combler cette lacune, nous présentons VBench-2.0, un benchmark de nouvelle génération conçu pour évaluer automatiquement les modèles génératifs vidéo en termes de fidélité intrinsèque. VBench-2.0 évalue cinq dimensions clés : Fidélité Humaine, Contrôlabilité, Créativité, Physique et Bon Sens, chacune étant ensuite décomposée en capacités plus fines. Adapté à chaque dimension, notre cadre d'évaluation intègre des généralistes tels que les VLMs et LLMs de pointe, ainsi que des spécialistes, incluant des méthodes de détection d'anomalies proposées pour la génération vidéo. Nous réalisons des annotations approfondies pour garantir l'alignement avec le jugement humain. En allant au-delà de la fidélité superficielle vers la fidélité intrinsèque, VBench-2.0 vise à établir une nouvelle norme pour la prochaine génération de modèles génératifs vidéo dans la quête de la fidélité intrinsèque.
English
Video generation has advanced significantly, evolving from producing unrealistic outputs to generating videos that appear visually convincing and temporally coherent. To evaluate these video generative models, benchmarks such as VBench have been developed to assess their faithfulness, measuring factors like per-frame aesthetics, temporal consistency, and basic prompt adherence. However, these aspects mainly represent superficial faithfulness, which focus on whether the video appears visually convincing rather than whether it adheres to real-world principles. While recent models perform increasingly well on these metrics, they still struggle to generate videos that are not just visually plausible but fundamentally realistic. To achieve real "world models" through video generation, the next frontier lies in intrinsic faithfulness to ensure that generated videos adhere to physical laws, commonsense reasoning, anatomical correctness, and compositional integrity. Achieving this level of realism is essential for applications such as AI-assisted filmmaking and simulated world modeling. To bridge this gap, we introduce VBench-2.0, a next-generation benchmark designed to automatically evaluate video generative models for their intrinsic faithfulness. VBench-2.0 assesses five key dimensions: Human Fidelity, Controllability, Creativity, Physics, and Commonsense, each further broken down into fine-grained capabilities. Tailored for individual dimensions, our evaluation framework integrates generalists such as state-of-the-art VLMs and LLMs, and specialists, including anomaly detection methods proposed for video generation. We conduct extensive annotations to ensure alignment with human judgment. By pushing beyond superficial faithfulness toward intrinsic faithfulness, VBench-2.0 aims to set a new standard for the next generation of video generative models in pursuit of intrinsic faithfulness.

Summary

AI-Generated Summary

PDF332March 28, 2025