Naar Wereldsimulator: Het Creëren van een Fysiek Gezond Verstand Gebaseerd Referentiekader voor Video Generatie.
Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation
October 7, 2024
Auteurs: Fanqing Meng, Jiaqi Liao, Xinyu Tan, Wenqi Shao, Quanfeng Lu, Kaipeng Zhang, Yu Cheng, Dianqi Li, Yu Qiao, Ping Luo
cs.AI
Samenvatting
Tekst-naar-video (T2V) modellen zoals Sora hebben aanzienlijke vooruitgang geboekt in het visualiseren van complexe instructies, wat steeds meer wordt gezien als een veelbelovende weg naar het construeren van de universele wereldsimulator. Cognitieve psychologen geloven dat de basis voor het bereiken van dit doel het vermogen is om intuïtieve natuurkunde te begrijpen. Echter, de capaciteit van deze modellen om intuïtieve natuurkunde nauwkeurig weer te geven blijft grotendeels onontgonnen. Om deze kloof te overbruggen, introduceren we PhyGenBench, een uitgebreide benchmark voor Natuurkunde Generatie ontworpen om de juistheid van fysiek gezond verstand in T2V generatie te evalueren. PhyGenBench omvat 160 zorgvuldig samengestelde instructies over 27 verschillende fysische wetten, die vier fundamentele domeinen bestrijken, en die modellen' begrip van fysiek gezond verstand uitgebreid kunnen beoordelen. Naast PhyGenBench stellen we een nieuw evaluatiekader voor genaamd PhyGenEval voor. Dit kader maakt gebruik van een hiërarchische evaluatiestructuur met behulp van passende geavanceerde visie-taal modellen en grote taalmodellen om fysiek gezond verstand te beoordelen. Via PhyGenBench en PhyGenEval kunnen we grootschalige geautomatiseerde beoordelingen uitvoeren van T2V modellen' begrip van fysiek gezond verstand, die nauw aansluiten bij menselijke feedback. Onze evaluatieresultaten en diepgaande analyse tonen aan dat huidige modellen moeite hebben om video's te genereren die voldoen aan fysiek gezond verstand. Bovendien is het eenvoudig schalen van modellen of het toepassen van instructietechnieken onvoldoende om volledig aan de uitdagingen van PhyGenBench (bijv. dynamische scenario's) te voldoen. We hopen dat deze studie de gemeenschap zal inspireren om het leren van fysiek gezond verstand in deze modellen te prioriteren, verder dan entertainmenttoepassingen. We zullen de gegevens en codes vrijgeven op https://github.com/OpenGVLab/PhyGenBench
English
Text-to-video (T2V) models like Sora have made significant strides in
visualizing complex prompts, which is increasingly viewed as a promising path
towards constructing the universal world simulator. Cognitive psychologists
believe that the foundation for achieving this goal is the ability to
understand intuitive physics. However, the capacity of these models to
accurately represent intuitive physics remains largely unexplored. To bridge
this gap, we introduce PhyGenBench, a comprehensive Physics
Generation Benchmark designed to evaluate physical
commonsense correctness in T2V generation. PhyGenBench comprises 160 carefully
crafted prompts across 27 distinct physical laws, spanning four fundamental
domains, which could comprehensively assesses models' understanding of physical
commonsense. Alongside PhyGenBench, we propose a novel evaluation framework
called PhyGenEval. This framework employs a hierarchical evaluation structure
utilizing appropriate advanced vision-language models and large language models
to assess physical commonsense. Through PhyGenBench and PhyGenEval, we can
conduct large-scale automated assessments of T2V models' understanding of
physical commonsense, which align closely with human feedback. Our evaluation
results and in-depth analysis demonstrate that current models struggle to
generate videos that comply with physical commonsense. Moreover, simply scaling
up models or employing prompt engineering techniques is insufficient to fully
address the challenges presented by PhyGenBench (e.g., dynamic scenarios). We
hope this study will inspire the community to prioritize the learning of
physical commonsense in these models beyond entertainment applications. We will
release the data and codes at https://github.com/OpenGVLab/PhyGenBenchSummary
AI-Generated Summary