Hacia un Simulador Mundial: Creación de un Referente Basado en Sentido Común Físico para la Generación de Videos.
Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation
October 7, 2024
Autores: Fanqing Meng, Jiaqi Liao, Xinyu Tan, Wenqi Shao, Quanfeng Lu, Kaipeng Zhang, Yu Cheng, Dianqi Li, Yu Qiao, Ping Luo
cs.AI
Resumen
Los modelos de texto a video (T2V) como Sora han avanzado significativamente en la visualización de instrucciones complejas, lo cual se considera cada vez más como un camino prometedor hacia la construcción del simulador de mundo universal. Los psicólogos cognitivos creen que la base para lograr este objetivo es la capacidad de comprender la física intuitiva. Sin embargo, la capacidad de estos modelos para representar con precisión la física intuitiva sigue siendo en gran medida inexplorada. Para cerrar esta brecha, presentamos PhyGenBench, un completo Banco de Evaluación de Generación de Física diseñado para evaluar la corrección del sentido común físico en la generación T2V. PhyGenBench consta de 160 instrucciones cuidadosamente elaboradas que abarcan 27 leyes físicas distintas, que se extienden a lo largo de cuatro dominios fundamentales, y que podrían evaluar de manera integral la comprensión del sentido común físico de los modelos. Junto con PhyGenBench, proponemos un novedoso marco de evaluación llamado PhyGenEval. Este marco emplea una estructura de evaluación jerárquica utilizando modelos apropiados avanzados de visión-lenguaje y grandes modelos de lenguaje para evaluar el sentido común físico. A través de PhyGenBench y PhyGenEval, podemos realizar evaluaciones automatizadas a gran escala de la comprensión del sentido común físico de los modelos T2V, que se alinean estrechamente con la retroalimentación humana. Nuestros resultados de evaluación y análisis en profundidad demuestran que los modelos actuales tienen dificultades para generar videos que cumplan con el sentido común físico. Además, simplemente escalar los modelos o emplear técnicas de ingeniería de instrucciones es insuficiente para abordar completamente los desafíos presentados por PhyGenBench (por ejemplo, escenarios dinámicos). Esperamos que este estudio inspire a la comunidad a priorizar el aprendizaje del sentido común físico en estos modelos más allá de las aplicaciones de entretenimiento. Publicaremos los datos y códigos en https://github.com/OpenGVLab/PhyGenBench
English
Text-to-video (T2V) models like Sora have made significant strides in
visualizing complex prompts, which is increasingly viewed as a promising path
towards constructing the universal world simulator. Cognitive psychologists
believe that the foundation for achieving this goal is the ability to
understand intuitive physics. However, the capacity of these models to
accurately represent intuitive physics remains largely unexplored. To bridge
this gap, we introduce PhyGenBench, a comprehensive Physics
Generation Benchmark designed to evaluate physical
commonsense correctness in T2V generation. PhyGenBench comprises 160 carefully
crafted prompts across 27 distinct physical laws, spanning four fundamental
domains, which could comprehensively assesses models' understanding of physical
commonsense. Alongside PhyGenBench, we propose a novel evaluation framework
called PhyGenEval. This framework employs a hierarchical evaluation structure
utilizing appropriate advanced vision-language models and large language models
to assess physical commonsense. Through PhyGenBench and PhyGenEval, we can
conduct large-scale automated assessments of T2V models' understanding of
physical commonsense, which align closely with human feedback. Our evaluation
results and in-depth analysis demonstrate that current models struggle to
generate videos that comply with physical commonsense. Moreover, simply scaling
up models or employing prompt engineering techniques is insufficient to fully
address the challenges presented by PhyGenBench (e.g., dynamic scenarios). We
hope this study will inspire the community to prioritize the learning of
physical commonsense in these models beyond entertainment applications. We will
release the data and codes at https://github.com/OpenGVLab/PhyGenBenchSummary
AI-Generated Summary