ChatPaper.aiChatPaper

"PhyWorldBench": Una Evaluación Integral del Realismo Físico en Modelos de Texto a Video

"PhyWorldBench": A Comprehensive Evaluation of Physical Realism in Text-to-Video Models

July 17, 2025
Autores: Jing Gu, Xian Liu, Yu Zeng, Ashwin Nagarajan, Fangrui Zhu, Daniel Hong, Yue Fan, Qianqi Yan, Kaiwen Zhou, Ming-Yu Liu, Xin Eric Wang
cs.AI

Resumen

Los modelos de generación de video han logrado avances notables en la creación de contenido de alta calidad y fotorrealista. Sin embargo, su capacidad para simular con precisión fenómenos físicos sigue siendo un desafío crítico y no resuelto. Este artículo presenta PhyWorldBench, un punto de referencia integral diseñado para evaluar modelos de generación de video en función de su adherencia a las leyes de la física. El punto de referencia abarca múltiples niveles de fenómenos físicos, desde principios fundamentales como el movimiento de objetos y la conservación de la energía hasta escenarios más complejos que involucran interacciones de cuerpos rígidos y movimientos humanos o animales. Además, introducimos una nueva categoría denominada "Anti-Física", donde las indicaciones violan intencionalmente las leyes físicas del mundo real, permitiendo evaluar si los modelos pueden seguir dichas instrucciones manteniendo la coherencia lógica. Además de una evaluación humana a gran escala, también diseñamos un método simple pero efectivo que podría utilizar modelos de lenguaje multimodal (MLLM) actuales para evaluar el realismo físico de manera sin precedentes. Evaluamos 12 modelos de última generación de generación de texto a video, incluyendo cinco modelos de código abierto y cinco modelos propietarios, con una comparación y análisis detallados. Identificamos desafíos clave que enfrentan los modelos para adherirse a las leyes físicas del mundo real. A través de pruebas sistemáticas de sus salidas en 1,050 indicaciones cuidadosamente seleccionadas, que abarcan escenarios fundamentales, compuestos y anti-físicos, identificamos desafíos clave que estos modelos enfrentan para adherirse a las leyes físicas del mundo real. Luego, examinamos rigurosamente su rendimiento en diversos fenómenos físicos con diferentes tipos de indicaciones, derivando recomendaciones específicas para elaborar indicaciones que mejoren la fidelidad a los principios físicos.
English
Video generation models have achieved remarkable progress in creating high-quality, photorealistic content. However, their ability to accurately simulate physical phenomena remains a critical and unresolved challenge. This paper presents PhyWorldBench, a comprehensive benchmark designed to evaluate video generation models based on their adherence to the laws of physics. The benchmark covers multiple levels of physical phenomena, ranging from fundamental principles like object motion and energy conservation to more complex scenarios involving rigid body interactions and human or animal motion. Additionally, we introduce a novel ""Anti-Physics"" category, where prompts intentionally violate real-world physics, enabling the assessment of whether models can follow such instructions while maintaining logical consistency. Besides large-scale human evaluation, we also design a simple yet effective method that could utilize current MLLM to evaluate the physics realism in a zero-shot fashion. We evaluate 12 state-of-the-art text-to-video generation models, including five open-source and five proprietary models, with a detailed comparison and analysis. we identify pivotal challenges models face in adhering to real-world physics. Through systematic testing of their outputs across 1,050 curated prompts-spanning fundamental, composite, and anti-physics scenarios-we identify pivotal challenges these models face in adhering to real-world physics. We then rigorously examine their performance on diverse physical phenomena with varying prompt types, deriving targeted recommendations for crafting prompts that enhance fidelity to physical principles.
PDF151July 22, 2025