ワールドシミュレーターに向けて:物理的な常識に基づくベンチマークの構築 ビデオ生成のため
Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation
October 7, 2024
著者: Fanqing Meng, Jiaqi Liao, Xinyu Tan, Wenqi Shao, Quanfeng Lu, Kaipeng Zhang, Yu Cheng, Dianqi Li, Yu Qiao, Ping Luo
cs.AI
要旨
テキストからビデオ(T2V)モデルのようなSoraは、複雑なプロンプトを視覚化する上で大きな進展を遂げており、これは普遍的な世界シミュレータを構築する有望な道筋と見なされるようになっています。認知心理学者は、この目標を達成する基盤は直感的な物理を理解する能力であると考えています。しかしながら、これらのモデルが直感的な物理を正確に表現する能力はほとんど探求されていません。このギャップを埋めるために、物理常識の正確さを評価するために設計された包括的な物理生成ベンチマークであるPhyGenBenchを導入します。PhyGenBenchには、4つの基本的な領域にまたがる27の異なる物理法則をカバーする、慎重に作成された160のプロンプトが含まれており、これによりモデルの物理常識の理解を包括的に評価できます。PhyGenBenchに加えて、Hierarchical Evaluation Structureを使用し、適切な高度なビジョン言語モデルと大規模な言語モデルを活用する新しい評価フレームワークであるPhyGenEvalを提案します。PhyGenBenchとPhyGenEvalを通じて、T2Vモデルの物理常識の理解を大規模かつ自動化された評価を行い、これは人間のフィードバックと密接に一致します。評価結果と詳細な分析により、現在のモデルが物理常識に準拠するビデオを生成するのに苦労していることが示されます。さらに、単にモデルをスケーリングアップしたり、プロンプトエンジニアリング技術を採用するだけでは、PhyGenBench(例:動的シナリオ)が提示する課題に完全に対処するのには不十分です。この研究が、これらのモデルにおける物理常識の学習を娯楽アプリケーションを超えて優先させるようコミュニティにインスピレーションを与えることを願っています。データとコードはhttps://github.com/OpenGVLab/PhyGenBench で公開されます。
English
Text-to-video (T2V) models like Sora have made significant strides in
visualizing complex prompts, which is increasingly viewed as a promising path
towards constructing the universal world simulator. Cognitive psychologists
believe that the foundation for achieving this goal is the ability to
understand intuitive physics. However, the capacity of these models to
accurately represent intuitive physics remains largely unexplored. To bridge
this gap, we introduce PhyGenBench, a comprehensive Physics
Generation Benchmark designed to evaluate physical
commonsense correctness in T2V generation. PhyGenBench comprises 160 carefully
crafted prompts across 27 distinct physical laws, spanning four fundamental
domains, which could comprehensively assesses models' understanding of physical
commonsense. Alongside PhyGenBench, we propose a novel evaluation framework
called PhyGenEval. This framework employs a hierarchical evaluation structure
utilizing appropriate advanced vision-language models and large language models
to assess physical commonsense. Through PhyGenBench and PhyGenEval, we can
conduct large-scale automated assessments of T2V models' understanding of
physical commonsense, which align closely with human feedback. Our evaluation
results and in-depth analysis demonstrate that current models struggle to
generate videos that comply with physical commonsense. Moreover, simply scaling
up models or employing prompt engineering techniques is insufficient to fully
address the challenges presented by PhyGenBench (e.g., dynamic scenarios). We
hope this study will inspire the community to prioritize the learning of
physical commonsense in these models beyond entertainment applications. We will
release the data and codes at https://github.com/OpenGVLab/PhyGenBenchSummary
AI-Generated Summary