"PhyWorldBench": Una Valutazione Completa del Realismo Fisico nei Modelli di Generazione Video da Testo
"PhyWorldBench": A Comprehensive Evaluation of Physical Realism in Text-to-Video Models
July 17, 2025
Autori: Jing Gu, Xian Liu, Yu Zeng, Ashwin Nagarajan, Fangrui Zhu, Daniel Hong, Yue Fan, Qianqi Yan, Kaiwen Zhou, Ming-Yu Liu, Xin Eric Wang
cs.AI
Abstract
I modelli di generazione video hanno compiuto progressi significativi nella creazione di contenuti fotorealistici di alta qualità. Tuttavia, la loro capacità di simulare accuratamente i fenomeni fisici rimane una sfida critica e irrisolta. Questo articolo presenta PhyWorldBench, un benchmark completo progettato per valutare i modelli di generazione video in base alla loro aderenza alle leggi della fisica. Il benchmark copre molteplici livelli di fenomeni fisici, che vanno dai principi fondamentali come il movimento degli oggetti e la conservazione dell'energia a scenari più complessi che coinvolgono interazioni tra corpi rigidi e movimenti umani o animali. Inoltre, introduciamo una nuova categoria "Anti-Fisica", in cui i prompt violano intenzionalmente la fisica del mondo reale, consentendo di valutare se i modelli possono seguire tali istruzioni mantenendo una coerenza logica. Oltre a una valutazione umana su larga scala, progettiamo anche un metodo semplice ma efficace che potrebbe sfruttare gli attuali MLLM per valutare il realismo fisico in modo zero-shot. Valutiamo 12 modelli all'avanguardia per la generazione video da testo, inclusi cinque modelli open-source e cinque proprietari, con un confronto e un'analisi dettagliati. Identifichiamo le sfide cruciali che i modelli affrontano nell'aderire alla fisica del mondo reale. Attraverso test sistematici dei loro output su 1.050 prompt curati, che spaziano da scenari fondamentali, compositi e anti-fisici, identifichiamo le sfide cruciali che questi modelli affrontano nell'aderire alla fisica del mondo reale. Esaminiamo rigorosamente le loro prestazioni su diversi fenomeni fisici con vari tipi di prompt, derivando raccomandazioni mirate per la creazione di prompt che migliorano la fedeltà ai principi fisici.
English
Video generation models have achieved remarkable progress in creating
high-quality, photorealistic content. However, their ability to accurately
simulate physical phenomena remains a critical and unresolved challenge. This
paper presents PhyWorldBench, a comprehensive benchmark designed to evaluate
video generation models based on their adherence to the laws of physics. The
benchmark covers multiple levels of physical phenomena, ranging from
fundamental principles like object motion and energy conservation to more
complex scenarios involving rigid body interactions and human or animal motion.
Additionally, we introduce a novel ""Anti-Physics"" category, where prompts
intentionally violate real-world physics, enabling the assessment of whether
models can follow such instructions while maintaining logical consistency.
Besides large-scale human evaluation, we also design a simple yet effective
method that could utilize current MLLM to evaluate the physics realism in a
zero-shot fashion. We evaluate 12 state-of-the-art text-to-video generation
models, including five open-source and five proprietary models, with a detailed
comparison and analysis. we identify pivotal challenges models face in adhering
to real-world physics. Through systematic testing of their outputs across 1,050
curated prompts-spanning fundamental, composite, and anti-physics scenarios-we
identify pivotal challenges these models face in adhering to real-world
physics. We then rigorously examine their performance on diverse physical
phenomena with varying prompt types, deriving targeted recommendations for
crafting prompts that enhance fidelity to physical principles.