Verso un Simulatore Mondiale: Creazione di un Benchmark basato sul Senso Comune Fisico per la Generazione di Video.
Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation
October 7, 2024
Autori: Fanqing Meng, Jiaqi Liao, Xinyu Tan, Wenqi Shao, Quanfeng Lu, Kaipeng Zhang, Yu Cheng, Dianqi Li, Yu Qiao, Ping Luo
cs.AI
Abstract
I modelli di testo-video (T2V) come Sora hanno compiuto progressi significativi nella visualizzazione di prompt complessi, che viene sempre più considerata come una via promettente verso la costruzione del simulatore universale del mondo. Gli psicologi cognitivi ritengono che la base per raggiungere questo obiettivo sia la capacità di comprendere la fisica intuitiva. Tuttavia, la capacità di questi modelli di rappresentare con precisione la fisica intuitiva rimane in gran parte inesplorata. Per colmare questa lacuna, presentiamo PhyGenBench, un completo Benchmark di Generazione della Fisica progettato per valutare la correttezza del senso comune fisico nella generazione T2V. PhyGenBench comprende 160 prompt attentamente elaborati attraverso 27 leggi fisiche distinte, che coprono quattro domini fondamentali, in grado di valutare in modo esaustivo la comprensione dei modelli del senso comune fisico. Insieme a PhyGenBench, proponiamo un nuovo framework di valutazione chiamato PhyGenEval. Questo framework utilizza una struttura di valutazione gerarchica che impiega modelli avanzati di visione-linguaggio e grandi modelli linguistici per valutare il senso comune fisico. Attraverso PhyGenBench e PhyGenEval, possiamo condurre valutazioni automatizzate su larga scala della comprensione del senso comune fisico da parte dei modelli T2V, che si allineano strettamente al feedback umano. I nostri risultati di valutazione e l'analisi approfondita dimostrano che i modelli attuali faticano a generare video conformi al senso comune fisico. Inoltre, semplicemente aumentare le dimensioni dei modelli o impiegare tecniche di ingegneria dei prompt non è sufficiente per affrontare appieno le sfide presentate da PhyGenBench (ad esempio, scenari dinamici). Speriamo che questo studio ispiri la comunità a dare priorità all'apprendimento del senso comune fisico in questi modelli al di là delle applicazioni di intrattenimento. Rilasceremo i dati e i codici su https://github.com/OpenGVLab/PhyGenBench.
English
Text-to-video (T2V) models like Sora have made significant strides in
visualizing complex prompts, which is increasingly viewed as a promising path
towards constructing the universal world simulator. Cognitive psychologists
believe that the foundation for achieving this goal is the ability to
understand intuitive physics. However, the capacity of these models to
accurately represent intuitive physics remains largely unexplored. To bridge
this gap, we introduce PhyGenBench, a comprehensive Physics
Generation Benchmark designed to evaluate physical
commonsense correctness in T2V generation. PhyGenBench comprises 160 carefully
crafted prompts across 27 distinct physical laws, spanning four fundamental
domains, which could comprehensively assesses models' understanding of physical
commonsense. Alongside PhyGenBench, we propose a novel evaluation framework
called PhyGenEval. This framework employs a hierarchical evaluation structure
utilizing appropriate advanced vision-language models and large language models
to assess physical commonsense. Through PhyGenBench and PhyGenEval, we can
conduct large-scale automated assessments of T2V models' understanding of
physical commonsense, which align closely with human feedback. Our evaluation
results and in-depth analysis demonstrate that current models struggle to
generate videos that comply with physical commonsense. Moreover, simply scaling
up models or employing prompt engineering techniques is insufficient to fully
address the challenges presented by PhyGenBench (e.g., dynamic scenarios). We
hope this study will inspire the community to prioritize the learning of
physical commonsense in these models beyond entertainment applications. We will
release the data and codes at https://github.com/OpenGVLab/PhyGenBench