Vers un simulateur mondial : création d'un banc d'essai basé sur le bon sens physique pour la génération de vidéos.
Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation
October 7, 2024
Auteurs: Fanqing Meng, Jiaqi Liao, Xinyu Tan, Wenqi Shao, Quanfeng Lu, Kaipeng Zhang, Yu Cheng, Dianqi Li, Yu Qiao, Ping Luo
cs.AI
Résumé
Les modèles de texte-à-vidéo (T2V) tels que Sora ont réalisé des avancées significatives dans la visualisation de consignes complexes, ce qui est de plus en plus considéré comme une voie prometteuse vers la construction du simulateur universel du monde. Les psychologues cognitifs estiment que la base pour atteindre cet objectif est la capacité à comprendre la physique intuitive. Cependant, la capacité de ces modèles à représenter avec précision la physique intuitive reste largement inexplorée. Pour combler cette lacune, nous introduisons PhyGenBench, un banc d'essai complet de génération de physique conçu pour évaluer la justesse du bon sens physique dans la génération T2V. PhyGenBench comprend 160 consignes soigneusement élaborées couvrant 27 lois physiques distinctes, s'étendant sur quatre domaines fondamentaux, ce qui pourrait évaluer de manière exhaustive la compréhension du bon sens physique par les modèles. En parallèle à PhyGenBench, nous proposons un nouveau cadre d'évaluation appelé PhyGenEval. Ce cadre utilise une structure d'évaluation hiérarchique en utilisant des modèles vision-langage avancés appropriés et de grands modèles de langage pour évaluer le bon sens physique. Grâce à PhyGenBench et PhyGenEval, nous pouvons réaliser des évaluations automatisées à grande échelle de la compréhension du bon sens physique par les modèles T2V, qui sont étroitement alignées sur les retours humains. Nos résultats d'évaluation et notre analyse approfondie démontrent que les modèles actuels ont du mal à générer des vidéos conformes au bon sens physique. De plus, simplement augmenter la taille des modèles ou utiliser des techniques d'ingénierie de consignes est insuffisant pour relever pleinement les défis posés par PhyGenBench (par exemple, les scénarios dynamiques). Nous espérons que cette étude inspirera la communauté à donner la priorité à l'apprentissage du bon sens physique dans ces modèles au-delà des applications de divertissement. Nous publierons les données et les codes sur https://github.com/OpenGVLab/PhyGenBench.
English
Text-to-video (T2V) models like Sora have made significant strides in
visualizing complex prompts, which is increasingly viewed as a promising path
towards constructing the universal world simulator. Cognitive psychologists
believe that the foundation for achieving this goal is the ability to
understand intuitive physics. However, the capacity of these models to
accurately represent intuitive physics remains largely unexplored. To bridge
this gap, we introduce PhyGenBench, a comprehensive Physics
Generation Benchmark designed to evaluate physical
commonsense correctness in T2V generation. PhyGenBench comprises 160 carefully
crafted prompts across 27 distinct physical laws, spanning four fundamental
domains, which could comprehensively assesses models' understanding of physical
commonsense. Alongside PhyGenBench, we propose a novel evaluation framework
called PhyGenEval. This framework employs a hierarchical evaluation structure
utilizing appropriate advanced vision-language models and large language models
to assess physical commonsense. Through PhyGenBench and PhyGenEval, we can
conduct large-scale automated assessments of T2V models' understanding of
physical commonsense, which align closely with human feedback. Our evaluation
results and in-depth analysis demonstrate that current models struggle to
generate videos that comply with physical commonsense. Moreover, simply scaling
up models or employing prompt engineering techniques is insufficient to fully
address the challenges presented by PhyGenBench (e.g., dynamic scenarios). We
hope this study will inspire the community to prioritize the learning of
physical commonsense in these models beyond entertainment applications. We will
release the data and codes at https://github.com/OpenGVLab/PhyGenBenchSummary
AI-Generated Summary