ChatPaper.aiChatPaper

"PhyWorldBench": Een uitgebreide evaluatie van fysieke realisme in tekst-naar-videomodellen

"PhyWorldBench": A Comprehensive Evaluation of Physical Realism in Text-to-Video Models

July 17, 2025
Auteurs: Jing Gu, Xian Liu, Yu Zeng, Ashwin Nagarajan, Fangrui Zhu, Daniel Hong, Yue Fan, Qianqi Yan, Kaiwen Zhou, Ming-Yu Liu, Xin Eric Wang
cs.AI

Samenvatting

Videogeneratiemodellen hebben opmerkelijke vooruitgang geboekt in het creëren van hoogwaardige, fotorealistische content. Hun vermogen om fysische fenomenen nauwkeurig te simuleren blijft echter een kritieke en onopgeloste uitdaging. Dit artikel introduceert PhyWorldBench, een uitgebreide benchmark ontworpen om videogeneratiemodellen te evalueren op basis van hun naleving van de natuurwetten. De benchmark bestrijkt meerdere niveaus van fysische fenomenen, variërend van fundamentele principes zoals objectbeweging en energiebehoud tot complexere scenario's met interacties tussen starre lichamen en bewegingen van mensen of dieren. Daarnaast introduceren we een nieuwe categorie genaamd "Anti-Fysica", waarbij prompts opzettelijk de natuurwetten schenden, wat het mogelijk maakt om te beoordelen of modellen dergelijke instructies kunnen volgen terwijl ze logische consistentie behouden. Naast grootschalige menselijke evaluatie ontwerpen we ook een eenvoudige maar effectieve methode die gebruikmaakt van huidige MLLM's om de fysische realiteit op een zero-shot manier te evalueren. We evalueren 12 state-of-the-art tekst-naar-videogeneratiemodellen, waaronder vijf open-source en vijf propriëtaire modellen, met een gedetailleerde vergelijking en analyse. We identificeren cruciale uitdagingen die modellen ondervinden bij het naleven van de natuurwetten. Door systematische tests van hun uitvoer over 1.050 zorgvuldig samengestelde prompts - variërend van fundamentele, samengestelde en anti-fysica scenario's - identificeren we cruciale uitdagingen die deze modellen ondervinden bij het naleven van de natuurwetten. We onderzoeken vervolgens grondig hun prestaties op diverse fysische fenomenen met verschillende prompttypes, en leiden gerichte aanbevelingen af voor het opstellen van prompts die de trouw aan fysische principes verbeteren.
English
Video generation models have achieved remarkable progress in creating high-quality, photorealistic content. However, their ability to accurately simulate physical phenomena remains a critical and unresolved challenge. This paper presents PhyWorldBench, a comprehensive benchmark designed to evaluate video generation models based on their adherence to the laws of physics. The benchmark covers multiple levels of physical phenomena, ranging from fundamental principles like object motion and energy conservation to more complex scenarios involving rigid body interactions and human or animal motion. Additionally, we introduce a novel ""Anti-Physics"" category, where prompts intentionally violate real-world physics, enabling the assessment of whether models can follow such instructions while maintaining logical consistency. Besides large-scale human evaluation, we also design a simple yet effective method that could utilize current MLLM to evaluate the physics realism in a zero-shot fashion. We evaluate 12 state-of-the-art text-to-video generation models, including five open-source and five proprietary models, with a detailed comparison and analysis. we identify pivotal challenges models face in adhering to real-world physics. Through systematic testing of their outputs across 1,050 curated prompts-spanning fundamental, composite, and anti-physics scenarios-we identify pivotal challenges these models face in adhering to real-world physics. We then rigorously examine their performance on diverse physical phenomena with varying prompt types, deriving targeted recommendations for crafting prompts that enhance fidelity to physical principles.
PDF151July 22, 2025