ChatPaper.aiChatPaper

"PhyWorldBench" : Une évaluation complète du réalisme physique dans les modèles de génération de texte en vidéo

"PhyWorldBench": A Comprehensive Evaluation of Physical Realism in Text-to-Video Models

July 17, 2025
papers.authors: Jing Gu, Xian Liu, Yu Zeng, Ashwin Nagarajan, Fangrui Zhu, Daniel Hong, Yue Fan, Qianqi Yan, Kaiwen Zhou, Ming-Yu Liu, Xin Eric Wang
cs.AI

papers.abstract

Les modèles de génération vidéo ont réalisé des progrès remarquables dans la création de contenus photoréalistes de haute qualité. Cependant, leur capacité à simuler avec précision les phénomènes physiques reste un défi critique et non résolu. Cet article présente PhyWorldBench, un benchmark complet conçu pour évaluer les modèles de génération vidéo en fonction de leur adhésion aux lois de la physique. Le benchmark couvre plusieurs niveaux de phénomènes physiques, allant des principes fondamentaux tels que le mouvement des objets et la conservation de l'énergie à des scénarios plus complexes impliquant des interactions de corps rigides et des mouvements humains ou animaux. De plus, nous introduisons une nouvelle catégorie « Anti-Physique », où les prompts violent intentionnellement les lois physiques du monde réel, permettant d'évaluer si les modèles peuvent suivre de telles instructions tout en maintenant une cohérence logique. En plus d'une évaluation humaine à grande échelle, nous concevons également une méthode simple mais efficace qui pourrait utiliser les modèles de langage multimodal (MLLM) actuels pour évaluer le réalisme physique de manière zero-shot. Nous évaluons 12 modèles de génération texte-à-vidéo de pointe, incluant cinq modèles open-source et cinq modèles propriétaires, avec une comparaison et une analyse détaillées. Nous identifions les défis cruciaux auxquels ces modèles sont confrontés pour adhérer aux lois physiques du monde réel. À travers des tests systématiques de leurs sorties sur 1 050 prompts soigneusement sélectionnés – couvrant des scénarios fondamentaux, composites et anti-physiques – nous mettons en lumière les difficultés majeures rencontrées par ces modèles. Nous examinons ensuite rigoureusement leurs performances sur divers phénomènes physiques avec différents types de prompts, en dérivant des recommandations ciblées pour la formulation de prompts qui améliorent la fidélité aux principes physiques.
English
Video generation models have achieved remarkable progress in creating high-quality, photorealistic content. However, their ability to accurately simulate physical phenomena remains a critical and unresolved challenge. This paper presents PhyWorldBench, a comprehensive benchmark designed to evaluate video generation models based on their adherence to the laws of physics. The benchmark covers multiple levels of physical phenomena, ranging from fundamental principles like object motion and energy conservation to more complex scenarios involving rigid body interactions and human or animal motion. Additionally, we introduce a novel ""Anti-Physics"" category, where prompts intentionally violate real-world physics, enabling the assessment of whether models can follow such instructions while maintaining logical consistency. Besides large-scale human evaluation, we also design a simple yet effective method that could utilize current MLLM to evaluate the physics realism in a zero-shot fashion. We evaluate 12 state-of-the-art text-to-video generation models, including five open-source and five proprietary models, with a detailed comparison and analysis. we identify pivotal challenges models face in adhering to real-world physics. Through systematic testing of their outputs across 1,050 curated prompts-spanning fundamental, composite, and anti-physics scenarios-we identify pivotal challenges these models face in adhering to real-world physics. We then rigorously examine their performance on diverse physical phenomena with varying prompt types, deriving targeted recommendations for crafting prompts that enhance fidelity to physical principles.
PDF151July 22, 2025