"PhyWorldBench": Eine umfassende Bewertung der physikalischen Realismusfähigkeit in Text-zu-Video-Modellen
"PhyWorldBench": A Comprehensive Evaluation of Physical Realism in Text-to-Video Models
July 17, 2025
papers.authors: Jing Gu, Xian Liu, Yu Zeng, Ashwin Nagarajan, Fangrui Zhu, Daniel Hong, Yue Fan, Qianqi Yan, Kaiwen Zhou, Ming-Yu Liu, Xin Eric Wang
cs.AI
papers.abstract
Videogenerationsmodelle haben bemerkenswerte Fortschritte bei der Erstellung hochwertiger, fotorealistischer Inhalte erzielt. Ihre Fähigkeit, physikalische Phänomene präzise zu simulieren, bleibt jedoch eine kritische und ungelöste Herausforderung. Dieses Papier stellt PhyWorldBench vor, einen umfassenden Benchmark, der entwickelt wurde, um Videogenerationsmodelle anhand ihrer Einhaltung der physikalischen Gesetze zu bewerten. Der Benchmark deckt mehrere Ebenen physikalischer Phänomene ab, von grundlegenden Prinzipien wie Objektbewegung und Energieerhaltung bis hin zu komplexeren Szenarien, die starre Körperinteraktionen sowie menschliche oder tierische Bewegungen umfassen. Zusätzlich führen wir eine neue Kategorie namens „Anti-Physik“ ein, in der Prompts bewusst die physikalischen Gesetze der realen Welt verletzen, um zu bewerten, ob Modelle solchen Anweisungen folgen können, während sie logische Konsistenz bewahren. Neben einer groß angelegten menschlichen Bewertung entwickeln wir auch eine einfache, aber effektive Methode, die aktuelle MLLM (Multimodale Large Language Models) nutzt, um die physikalische Realismusbewertung in einem Zero-Shot-Verfahren durchzuführen. Wir evaluieren 12 state-of-the-art Text-zu-Video-Generationsmodelle, darunter fünf Open-Source- und fünf proprietäre Modelle, mit einer detaillierten Vergleichs- und Analyse. Wir identifizieren zentrale Herausforderungen, denen Modelle bei der Einhaltung der physikalischen Gesetze der realen Welt gegenüberstehen. Durch systematische Tests ihrer Ausgaben über 1.050 sorgfältig ausgewählte Prompts – die grundlegende, zusammengesetzte und Anti-Physik-Szenarien abdecken – identifizieren wir entscheidende Schwierigkeiten, die diese Modelle bei der Einhaltung der physikalischen Realität haben. Anschließend untersuchen wir ihre Leistung bei verschiedenen physikalischen Phänomenen mit unterschiedlichen Prompt-Typen rigoros und leiten gezielte Empfehlungen für die Gestaltung von Prompts ab, die die Treue zu physikalischen Prinzipien verbessern.
English
Video generation models have achieved remarkable progress in creating
high-quality, photorealistic content. However, their ability to accurately
simulate physical phenomena remains a critical and unresolved challenge. This
paper presents PhyWorldBench, a comprehensive benchmark designed to evaluate
video generation models based on their adherence to the laws of physics. The
benchmark covers multiple levels of physical phenomena, ranging from
fundamental principles like object motion and energy conservation to more
complex scenarios involving rigid body interactions and human or animal motion.
Additionally, we introduce a novel ""Anti-Physics"" category, where prompts
intentionally violate real-world physics, enabling the assessment of whether
models can follow such instructions while maintaining logical consistency.
Besides large-scale human evaluation, we also design a simple yet effective
method that could utilize current MLLM to evaluate the physics realism in a
zero-shot fashion. We evaluate 12 state-of-the-art text-to-video generation
models, including five open-source and five proprietary models, with a detailed
comparison and analysis. we identify pivotal challenges models face in adhering
to real-world physics. Through systematic testing of their outputs across 1,050
curated prompts-spanning fundamental, composite, and anti-physics scenarios-we
identify pivotal challenges these models face in adhering to real-world
physics. We then rigorously examine their performance on diverse physical
phenomena with varying prompt types, deriving targeted recommendations for
crafting prompts that enhance fidelity to physical principles.