Richtung Welt-Simulator: Entwicklung eines physischen Common-Sense-basierten Benchmarks für die Videogenerierung.
Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation
October 7, 2024
Autoren: Fanqing Meng, Jiaqi Liao, Xinyu Tan, Wenqi Shao, Quanfeng Lu, Kaipeng Zhang, Yu Cheng, Dianqi Li, Yu Qiao, Ping Luo
cs.AI
Zusammenfassung
Text-zu-Video (T2V) Modelle wie Sora haben bedeutende Fortschritte bei der Visualisierung komplexer Eingaben erzielt, was zunehmend als vielversprechender Weg zur Konstruktion des universellen Weltsimulators angesehen wird. Kognitive Psychologen glauben, dass die Grundlage für die Erreichung dieses Ziels die Fähigkeit ist, intuitive Physik zu verstehen. Die Fähigkeit dieser Modelle, intuitive Physik genau darzustellen, bleibt jedoch weitgehend unerforscht. Um diese Lücke zu schließen, stellen wir PhyGenBench vor, einen umfassenden Physik-Generierungs-Benchmark, der entworfen wurde, um die physikalische Alltagslogik in der T2V-Generierung zu bewerten. PhyGenBench umfasst 160 sorgfältig erstellte Eingaben über 27 verschiedene physikalische Gesetze, die vier grundlegende Bereiche abdecken und die das Verständnis der Modelle für physikalische Alltagslogik umfassend bewerten können. Neben PhyGenBench schlagen wir ein neuartiges Bewertungsframework namens PhyGenEval vor. Dieses Framework verwendet eine hierarchische Bewertungsstruktur, die geeignete fortschrittliche Bild-Sprach-Modelle und große Sprachmodelle einsetzt, um die physikalische Alltagslogik zu bewerten. Durch PhyGenBench und PhyGenEval können wir groß angelegte automatisierte Bewertungen des Verständnisses von T2V-Modellen für physikalische Alltagslogik durchführen, die eng mit menschlichem Feedback übereinstimmen. Unsere Bewertungsergebnisse und eingehende Analyse zeigen, dass aktuelle Modelle Schwierigkeiten haben, Videos zu generieren, die mit physikalischer Alltagslogik übereinstimmen. Darüber hinaus reicht es nicht aus, Modelle einfach zu skalieren oder Eingabetechniken zu verwenden, um die von PhyGenBench aufgeworfenen Herausforderungen (z. B. dynamische Szenarien) vollständig anzugehen. Wir hoffen, dass diese Studie die Gemeinschaft dazu inspirieren wird, das Lernen von physikalischer Alltagslogik in diesen Modellen über Unterhaltungsanwendungen hinaus zu priorisieren. Wir werden die Daten und Codes unter https://github.com/OpenGVLab/PhyGenBench veröffentlichen.
English
Text-to-video (T2V) models like Sora have made significant strides in
visualizing complex prompts, which is increasingly viewed as a promising path
towards constructing the universal world simulator. Cognitive psychologists
believe that the foundation for achieving this goal is the ability to
understand intuitive physics. However, the capacity of these models to
accurately represent intuitive physics remains largely unexplored. To bridge
this gap, we introduce PhyGenBench, a comprehensive Physics
Generation Benchmark designed to evaluate physical
commonsense correctness in T2V generation. PhyGenBench comprises 160 carefully
crafted prompts across 27 distinct physical laws, spanning four fundamental
domains, which could comprehensively assesses models' understanding of physical
commonsense. Alongside PhyGenBench, we propose a novel evaluation framework
called PhyGenEval. This framework employs a hierarchical evaluation structure
utilizing appropriate advanced vision-language models and large language models
to assess physical commonsense. Through PhyGenBench and PhyGenEval, we can
conduct large-scale automated assessments of T2V models' understanding of
physical commonsense, which align closely with human feedback. Our evaluation
results and in-depth analysis demonstrate that current models struggle to
generate videos that comply with physical commonsense. Moreover, simply scaling
up models or employing prompt engineering techniques is insufficient to fully
address the challenges presented by PhyGenBench (e.g., dynamic scenarios). We
hope this study will inspire the community to prioritize the learning of
physical commonsense in these models beyond entertainment applications. We will
release the data and codes at https://github.com/OpenGVLab/PhyGenBenchSummary
AI-Generated Summary