VBench-2.0 : Progression de la suite de benchmarks pour la génération vidéo en matière de fidélité intrinsèque
VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness
March 27, 2025
Auteurs: Dian Zheng, Ziqi Huang, Hongbo Liu, Kai Zou, Yinan He, Fan Zhang, Yuanhan Zhang, Jingwen He, Wei-Shi Zheng, Yu Qiao, Ziwei Liu
cs.AI
Résumé
La génération vidéo a considérablement progressé, évoluant de la production de résultats irréalistes à la création de vidéos visuellement convaincantes et temporellement cohérentes. Pour évaluer ces modèles génératifs vidéo, des benchmarks tels que VBench ont été développés pour mesurer leur fidélité, en prenant en compte des facteurs comme l'esthétique par image, la cohérence temporelle et l'adhésion basique aux prompts. Cependant, ces aspects représentent principalement une fidélité superficielle, qui se concentre sur l'apparence visuellement convaincante de la vidéo plutôt que sur son adhésion aux principes du monde réel. Bien que les modèles récents performent de mieux en mieux sur ces métriques, ils peinent encore à générer des vidéos qui ne sont pas seulement visuellement plausibles, mais fondamentalement réalistes. Pour atteindre de véritables "modèles du monde" via la génération vidéo, la prochaine frontière réside dans la fidélité intrinsèque, afin de garantir que les vidéos générées respectent les lois physiques, le raisonnement de bon sens, la justesse anatomique et l'intégrité compositionnelle. Atteindre ce niveau de réalisme est essentiel pour des applications telles que la réalisation de films assistée par l'IA et la modélisation de mondes simulés. Pour combler cette lacune, nous présentons VBench-2.0, un benchmark de nouvelle génération conçu pour évaluer automatiquement les modèles génératifs vidéo en termes de fidélité intrinsèque. VBench-2.0 évalue cinq dimensions clés : Fidélité Humaine, Contrôlabilité, Créativité, Physique et Bon Sens, chacune étant ensuite décomposée en capacités plus fines. Adapté à chaque dimension, notre cadre d'évaluation intègre des généralistes tels que les VLMs et LLMs de pointe, ainsi que des spécialistes, incluant des méthodes de détection d'anomalies proposées pour la génération vidéo. Nous réalisons des annotations approfondies pour garantir l'alignement avec le jugement humain. En allant au-delà de la fidélité superficielle vers la fidélité intrinsèque, VBench-2.0 vise à établir une nouvelle norme pour la prochaine génération de modèles génératifs vidéo dans la quête de la fidélité intrinsèque.
English
Video generation has advanced significantly, evolving from producing
unrealistic outputs to generating videos that appear visually convincing and
temporally coherent. To evaluate these video generative models, benchmarks such
as VBench have been developed to assess their faithfulness, measuring factors
like per-frame aesthetics, temporal consistency, and basic prompt adherence.
However, these aspects mainly represent superficial faithfulness, which focus
on whether the video appears visually convincing rather than whether it adheres
to real-world principles. While recent models perform increasingly well on
these metrics, they still struggle to generate videos that are not just
visually plausible but fundamentally realistic. To achieve real "world models"
through video generation, the next frontier lies in intrinsic faithfulness to
ensure that generated videos adhere to physical laws, commonsense reasoning,
anatomical correctness, and compositional integrity. Achieving this level of
realism is essential for applications such as AI-assisted filmmaking and
simulated world modeling. To bridge this gap, we introduce VBench-2.0, a
next-generation benchmark designed to automatically evaluate video generative
models for their intrinsic faithfulness. VBench-2.0 assesses five key
dimensions: Human Fidelity, Controllability, Creativity, Physics, and
Commonsense, each further broken down into fine-grained capabilities. Tailored
for individual dimensions, our evaluation framework integrates generalists such
as state-of-the-art VLMs and LLMs, and specialists, including anomaly detection
methods proposed for video generation. We conduct extensive annotations to
ensure alignment with human judgment. By pushing beyond superficial
faithfulness toward intrinsic faithfulness, VBench-2.0 aims to set a new
standard for the next generation of video generative models in pursuit of
intrinsic faithfulness.Summary
AI-Generated Summary