"PhyWorldBench": Комплексная оценка физического реализма в моделях преобразования текста в видео
"PhyWorldBench": A Comprehensive Evaluation of Physical Realism in Text-to-Video Models
July 17, 2025
Авторы: Jing Gu, Xian Liu, Yu Zeng, Ashwin Nagarajan, Fangrui Zhu, Daniel Hong, Yue Fan, Qianqi Yan, Kaiwen Zhou, Ming-Yu Liu, Xin Eric Wang
cs.AI
Аннотация
Модели генерации видео достигли значительного прогресса в создании высококачественного фотореалистичного контента. Однако их способность точно моделировать физические явления остается важной и нерешенной задачей. В данной статье представлен PhyWorldBench — комплексный бенчмарк, разработанный для оценки моделей генерации видео на основе их соответствия законам физики. Бенчмарк охватывает несколько уровней физических явлений, начиная с фундаментальных принципов, таких как движение объектов и сохранение энергии, и заканчивая более сложными сценариями, включающими взаимодействие твердых тел, а также движение людей и животных. Кроме того, мы вводим новую категорию «Антифизика», где промпты намеренно нарушают законы реальной физики, что позволяет оценить, способны ли модели следовать таким инструкциям, сохраняя логическую согласованность. Помимо масштабной оценки с участием людей, мы также разрабатываем простой, но эффективный метод, который может использовать современные мультимодальные языковые модели (MLLM) для оценки физической реалистичности в режиме zero-shot. Мы оцениваем 12 современных моделей генерации видео из текста, включая пять открытых и пять проприетарных моделей, с подробным сравнением и анализом. Мы выявляем ключевые проблемы, с которыми сталкиваются модели при соблюдении законов реальной физики. Путем систематического тестирования их выходных данных на 1050 тщательно отобранных промптах, охватывающих фундаментальные, составные и антифизические сценарии, мы определяем основные трудности, с которыми сталкиваются эти модели. Затем мы тщательно анализируем их производительность на различных физических явлениях с разными типами промптов, формулируя целевые рекомендации по созданию промптов, которые повышают соответствие физическим принципам.
English
Video generation models have achieved remarkable progress in creating
high-quality, photorealistic content. However, their ability to accurately
simulate physical phenomena remains a critical and unresolved challenge. This
paper presents PhyWorldBench, a comprehensive benchmark designed to evaluate
video generation models based on their adherence to the laws of physics. The
benchmark covers multiple levels of physical phenomena, ranging from
fundamental principles like object motion and energy conservation to more
complex scenarios involving rigid body interactions and human or animal motion.
Additionally, we introduce a novel ""Anti-Physics"" category, where prompts
intentionally violate real-world physics, enabling the assessment of whether
models can follow such instructions while maintaining logical consistency.
Besides large-scale human evaluation, we also design a simple yet effective
method that could utilize current MLLM to evaluate the physics realism in a
zero-shot fashion. We evaluate 12 state-of-the-art text-to-video generation
models, including five open-source and five proprietary models, with a detailed
comparison and analysis. we identify pivotal challenges models face in adhering
to real-world physics. Through systematic testing of their outputs across 1,050
curated prompts-spanning fundamental, composite, and anti-physics scenarios-we
identify pivotal challenges these models face in adhering to real-world
physics. We then rigorously examine their performance on diverse physical
phenomena with varying prompt types, deriving targeted recommendations for
crafting prompts that enhance fidelity to physical principles.