「PhyWorldBench」:テキストからビデオ生成モデルにおける物理的リアリズムの包括的評価
"PhyWorldBench": A Comprehensive Evaluation of Physical Realism in Text-to-Video Models
July 17, 2025
著者: Jing Gu, Xian Liu, Yu Zeng, Ashwin Nagarajan, Fangrui Zhu, Daniel Hong, Yue Fan, Qianqi Yan, Kaiwen Zhou, Ming-Yu Liu, Xin Eric Wang
cs.AI
要旨
ビデオ生成モデルは、高品質でフォトリアルなコンテンツの作成において顕著な進歩を遂げてきた。しかし、物理現象を正確にシミュレートする能力は依然として重要な未解決の課題である。本論文では、物理法則への準拠度に基づいてビデオ生成モデルを評価するための包括的なベンチマークであるPhyWorldBenchを提案する。このベンチマークは、物体の運動やエネルギー保存といった基本原理から、剛体相互作用や人間や動物の動きを含むより複雑なシナリオまで、複数のレベルの物理現象をカバーしている。さらに、現実世界の物理法則を意図的に破るプロンプトを含む「反物理」カテゴリを新たに導入し、モデルがそのような指示に従いながら論理的一貫性を維持できるかどうかを評価する。大規模な人間による評価に加えて、現在のMLLMを活用してゼロショット方式で物理的リアリズムを評価するためのシンプルかつ効果的な手法も設計する。12の最先端のテキストからビデオ生成モデル(オープンソースモデル5つとプロプライエタリモデル5つを含む)を評価し、詳細な比較と分析を行う。1,050の厳選されたプロンプト(基本原理、複合、反物理シナリオを含む)を通じて、これらのモデルが現実世界の物理法則に準拠する際に直面する重要な課題を特定する。その後、さまざまなプロンプトタイプを用いた多様な物理現象に対するパフォーマンスを厳密に検証し、物理原則への忠実度を高めるためのプロンプト作成に関する具体的な提言を導き出す。
English
Video generation models have achieved remarkable progress in creating
high-quality, photorealistic content. However, their ability to accurately
simulate physical phenomena remains a critical and unresolved challenge. This
paper presents PhyWorldBench, a comprehensive benchmark designed to evaluate
video generation models based on their adherence to the laws of physics. The
benchmark covers multiple levels of physical phenomena, ranging from
fundamental principles like object motion and energy conservation to more
complex scenarios involving rigid body interactions and human or animal motion.
Additionally, we introduce a novel ""Anti-Physics"" category, where prompts
intentionally violate real-world physics, enabling the assessment of whether
models can follow such instructions while maintaining logical consistency.
Besides large-scale human evaluation, we also design a simple yet effective
method that could utilize current MLLM to evaluate the physics realism in a
zero-shot fashion. We evaluate 12 state-of-the-art text-to-video generation
models, including five open-source and five proprietary models, with a detailed
comparison and analysis. we identify pivotal challenges models face in adhering
to real-world physics. Through systematic testing of their outputs across 1,050
curated prompts-spanning fundamental, composite, and anti-physics scenarios-we
identify pivotal challenges these models face in adhering to real-world
physics. We then rigorously examine their performance on diverse physical
phenomena with varying prompt types, deriving targeted recommendations for
crafting prompts that enhance fidelity to physical principles.