ChatPaper.aiChatPaper

세계 시뮬레이터로: 영상 생성을 위한 물리적 상식 기반 벤치마크 제작을 향하여

Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation

October 7, 2024
저자: Fanqing Meng, Jiaqi Liao, Xinyu Tan, Wenqi Shao, Quanfeng Lu, Kaipeng Zhang, Yu Cheng, Dianqi Li, Yu Qiao, Ping Luo
cs.AI

초록

텍스트-비디오(T2V) 모델인 Sora와 같은 모델들은 복잡한 프롬프트를 시각화하는 데 상당한 발전을 이루었으며, 이는 보다 유망한 세계 공용 시뮬레이터 구축으로 통해 점차적으로 인식되고 있습니다. 인지 심리학자들은 이 목표를 달성하기 위한 기초가 직관적 물리학을 이해하는 능력이라고 믿습니다. 그러나 이러한 모델들이 직관적 물리학을 정확하게 표현하는 능력은 여전히 크게 탐구되지 않았습니다. 이 간극을 메우기 위해 우리는 물리적 상식의 정확성을 T2V 생성에서 평가하기 위해 설계된 포괄적인 물리 생성 벤치마크인 PhyGenBench를 소개합니다. PhyGenBench는 4가지 기본 도메인을 포괄하는 27가지의 물리 법칙을 걸쳐 조합된 160가지 정교하게 설계된 프롬프트로, 모델들의 물리적 상식 이해를 체계적으로 평가할 수 있습니다. PhyGenBench와 함께, 우리는 PhyGenEval이라는 새로운 평가 프레임워크를 제안합니다. 이 프레임워크는 적합한 고급 비전-언어 모델과 대규모 언어 모델을 활용한 계층적 평가 구조를 채택하여 물리적 상식을 평가합니다. PhyGenBench와 PhyGenEval을 통해 우리는 T2V 모델들의 물리적 상식 이해를 대규모 자동 평가할 수 있으며, 이는 인간 피드백과 밀접하게 부합합니다. 우리의 평가 결과와 심층적 분석은 현재 모델들이 물리적 상식을 준수하는 비디오를 생성하는 데 어려움을 겪고 있음을 보여줍니다. 게다가, 단순히 모델을 확장하거나 프롬프트 엔지니어링 기술을 채용하는 것만으로는 PhyGenBench(예: 동적 시나리오)가 제시하는 도전에 완전히 대응하기에는 충분하지 않습니다. 이 연구가 커뮤니티에게 엔터테인먼트 응용 프로그램을 넘어 이러한 모델의 물리적 상식 학습을 우선시하도록 영감을 줄 것으로 기대합니다. 데이터와 코드는 https://github.com/OpenGVLab/PhyGenBench에서 공개될 예정입니다.
English
Text-to-video (T2V) models like Sora have made significant strides in visualizing complex prompts, which is increasingly viewed as a promising path towards constructing the universal world simulator. Cognitive psychologists believe that the foundation for achieving this goal is the ability to understand intuitive physics. However, the capacity of these models to accurately represent intuitive physics remains largely unexplored. To bridge this gap, we introduce PhyGenBench, a comprehensive Physics Generation Benchmark designed to evaluate physical commonsense correctness in T2V generation. PhyGenBench comprises 160 carefully crafted prompts across 27 distinct physical laws, spanning four fundamental domains, which could comprehensively assesses models' understanding of physical commonsense. Alongside PhyGenBench, we propose a novel evaluation framework called PhyGenEval. This framework employs a hierarchical evaluation structure utilizing appropriate advanced vision-language models and large language models to assess physical commonsense. Through PhyGenBench and PhyGenEval, we can conduct large-scale automated assessments of T2V models' understanding of physical commonsense, which align closely with human feedback. Our evaluation results and in-depth analysis demonstrate that current models struggle to generate videos that comply with physical commonsense. Moreover, simply scaling up models or employing prompt engineering techniques is insufficient to fully address the challenges presented by PhyGenBench (e.g., dynamic scenarios). We hope this study will inspire the community to prioritize the learning of physical commonsense in these models beyond entertainment applications. We will release the data and codes at https://github.com/OpenGVLab/PhyGenBench

Summary

AI-Generated Summary

PDF463November 16, 2024