Rumo ao Simulador Mundial: Elaboração de um Referencial Baseado em Senso Comum Físico para Geração de Vídeo.
Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation
October 7, 2024
Autores: Fanqing Meng, Jiaqi Liao, Xinyu Tan, Wenqi Shao, Quanfeng Lu, Kaipeng Zhang, Yu Cheng, Dianqi Li, Yu Qiao, Ping Luo
cs.AI
Resumo
Modelos de Texto-para-Vídeo (T2V) como Sora têm avançado significativamente na visualização de instruções complexas, o que é cada vez mais considerado um caminho promissor para a construção do simulador de mundo universal. Psicólogos cognitivos acreditam que a base para alcançar esse objetivo é a capacidade de compreender a física intuitiva. No entanto, a capacidade desses modelos de representar com precisão a física intuitiva permanece amplamente inexplorada. Para preencher essa lacuna, apresentamos o PhyGenBench, um amplo Benchmark de Geração de Física projetado para avaliar a correção do senso comum físico na geração T2V. O PhyGenBench é composto por 160 instruções cuidadosamente elaboradas abrangendo 27 leis físicas distintas, que abrangem quatro domínios fundamentais, podendo avaliar de forma abrangente a compreensão dos modelos sobre o senso comum físico. Junto com o PhyGenBench, propomos um novo framework de avaliação chamado PhyGenEval. Esse framework emprega uma estrutura de avaliação hierárquica utilizando modelos avançados apropriados de visão-linguagem e grandes modelos de linguagem para avaliar o senso comum físico. Através do PhyGenBench e do PhyGenEval, podemos realizar avaliações automatizadas em larga escala da compreensão dos modelos T2V sobre o senso comum físico, alinhando-se de perto com o feedback humano. Nossos resultados de avaliação e análises detalhadas demonstram que os modelos atuais têm dificuldade em gerar vídeos que estejam de acordo com o senso comum físico. Além disso, simplesmente aumentar a escala dos modelos ou empregar técnicas de engenharia de instruções é insuficiente para abordar totalmente os desafios apresentados pelo PhyGenBench (por exemplo, cenários dinâmicos). Esperamos que este estudo inspire a comunidade a priorizar a aprendizagem do senso comum físico nesses modelos para além das aplicações de entretenimento. Vamos disponibilizar os dados e códigos em https://github.com/OpenGVLab/PhyGenBench
English
Text-to-video (T2V) models like Sora have made significant strides in
visualizing complex prompts, which is increasingly viewed as a promising path
towards constructing the universal world simulator. Cognitive psychologists
believe that the foundation for achieving this goal is the ability to
understand intuitive physics. However, the capacity of these models to
accurately represent intuitive physics remains largely unexplored. To bridge
this gap, we introduce PhyGenBench, a comprehensive Physics
Generation Benchmark designed to evaluate physical
commonsense correctness in T2V generation. PhyGenBench comprises 160 carefully
crafted prompts across 27 distinct physical laws, spanning four fundamental
domains, which could comprehensively assesses models' understanding of physical
commonsense. Alongside PhyGenBench, we propose a novel evaluation framework
called PhyGenEval. This framework employs a hierarchical evaluation structure
utilizing appropriate advanced vision-language models and large language models
to assess physical commonsense. Through PhyGenBench and PhyGenEval, we can
conduct large-scale automated assessments of T2V models' understanding of
physical commonsense, which align closely with human feedback. Our evaluation
results and in-depth analysis demonstrate that current models struggle to
generate videos that comply with physical commonsense. Moreover, simply scaling
up models or employing prompt engineering techniques is insufficient to fully
address the challenges presented by PhyGenBench (e.g., dynamic scenarios). We
hope this study will inspire the community to prioritize the learning of
physical commonsense in these models beyond entertainment applications. We will
release the data and codes at https://github.com/OpenGVLab/PhyGenBenchSummary
AI-Generated Summary