"PhyWorldBench": Uma Avaliação Abrangente do Realismo Físico em Modelos de Texto para Vídeo
"PhyWorldBench": A Comprehensive Evaluation of Physical Realism in Text-to-Video Models
July 17, 2025
Autores: Jing Gu, Xian Liu, Yu Zeng, Ashwin Nagarajan, Fangrui Zhu, Daniel Hong, Yue Fan, Qianqi Yan, Kaiwen Zhou, Ming-Yu Liu, Xin Eric Wang
cs.AI
Resumo
Modelos de geração de vídeo têm alcançado progressos notáveis na criação de conteúdo fotorealístico de alta qualidade. No entanto, sua capacidade de simular com precisão fenômenos físicos permanece um desafio crítico e não resolvido. Este artigo apresenta o PhyWorldBench, um benchmark abrangente projetado para avaliar modelos de geração de vídeo com base em sua aderência às leis da física. O benchmark cobre múltiplos níveis de fenômenos físicos, desde princípios fundamentais como movimento de objetos e conservação de energia até cenários mais complexos envolvendo interações de corpos rígidos e movimentos humanos ou animais. Além disso, introduzimos uma nova categoria chamada "Anti-Física", onde os prompts violam intencionalmente a física do mundo real, permitindo avaliar se os modelos podem seguir tais instruções enquanto mantêm a consistência lógica. Além de uma avaliação humana em larga escala, também projetamos um método simples, porém eficaz, que pode utilizar modelos multimodais de linguagem (MLLM) atuais para avaliar o realismo físico de forma zero-shot. Avaliamos 12 modelos state-of-the-art de geração de texto para vídeo, incluindo cinco modelos de código aberto e cinco proprietários, com uma comparação e análise detalhada. Identificamos desafios cruciais que os modelos enfrentam ao aderir à física do mundo real. Por meio de testes sistemáticos de suas saídas em 1.050 prompts cuidadosamente selecionados - abrangendo cenários fundamentais, compostos e anti-físicos - identificamos desafios cruciais que esses modelos enfrentam ao aderir à física do mundo real. Em seguida, examinamos rigorosamente seu desempenho em diversos fenômenos físicos com diferentes tipos de prompts, derivando recomendações direcionadas para a criação de prompts que aumentam a fidelidade aos princípios físicos.
English
Video generation models have achieved remarkable progress in creating
high-quality, photorealistic content. However, their ability to accurately
simulate physical phenomena remains a critical and unresolved challenge. This
paper presents PhyWorldBench, a comprehensive benchmark designed to evaluate
video generation models based on their adherence to the laws of physics. The
benchmark covers multiple levels of physical phenomena, ranging from
fundamental principles like object motion and energy conservation to more
complex scenarios involving rigid body interactions and human or animal motion.
Additionally, we introduce a novel ""Anti-Physics"" category, where prompts
intentionally violate real-world physics, enabling the assessment of whether
models can follow such instructions while maintaining logical consistency.
Besides large-scale human evaluation, we also design a simple yet effective
method that could utilize current MLLM to evaluate the physics realism in a
zero-shot fashion. We evaluate 12 state-of-the-art text-to-video generation
models, including five open-source and five proprietary models, with a detailed
comparison and analysis. we identify pivotal challenges models face in adhering
to real-world physics. Through systematic testing of their outputs across 1,050
curated prompts-spanning fundamental, composite, and anti-physics scenarios-we
identify pivotal challenges these models face in adhering to real-world
physics. We then rigorously examine their performance on diverse physical
phenomena with varying prompt types, deriving targeted recommendations for
crafting prompts that enhance fidelity to physical principles.