"PhyWorldBench": 텍스트-투-비디오 모델의 물리적 현실성에 대한 포괄적 평가
"PhyWorldBench": A Comprehensive Evaluation of Physical Realism in Text-to-Video Models
July 17, 2025
저자: Jing Gu, Xian Liu, Yu Zeng, Ashwin Nagarajan, Fangrui Zhu, Daniel Hong, Yue Fan, Qianqi Yan, Kaiwen Zhou, Ming-Yu Liu, Xin Eric Wang
cs.AI
초록
비디오 생성 모델은 고품질의 사실적인 콘텐츠를 생성하는 데 있어서 놀라운 진전을 이루어냈습니다. 그러나 물리적 현상을 정확하게 시뮬레이션하는 능력은 여전히 중요한 해결 과제로 남아 있습니다. 본 논문은 물리 법칙에 대한 준수 여부를 기준으로 비디오 생성 모델을 평가하기 위해 설계된 포괄적인 벤치마크인 PhyWorldBench를 소개합니다. 이 벤치마크는 물체의 운동과 에너지 보존과 같은 기본 원리부터 강체 상호작용 및 인간 또는 동물의 움직임과 같은 더 복잡한 시나리오에 이르기까지 다양한 수준의 물리적 현상을 다룹니다. 또한, "반물리학(Anti-Physics)"이라는 새로운 카테고리를 도입하여, 실제 세계의 물리학을 의도적으로 위반하는 프롬프트를 통해 모델이 이러한 지시를 따르면서도 논리적 일관성을 유지할 수 있는지를 평가할 수 있도록 했습니다. 대규모 인간 평가 외에도, 현재의 다중언어 모델(MLLM)을 활용하여 제로샷 방식으로 물리학적 사실성을 평가할 수 있는 간단하면서도 효과적인 방법을 설계했습니다. 우리는 12개의 최첨단 텍스트-투-비디오 생성 모델을 평가했으며, 이 중 5개의 오픈소스 모델과 5개의 독점 모델을 포함하여 상세한 비교와 분석을 수행했습니다. 1,050개의 선별된 프롬프트를 통해 기본, 복합 및 반물리학 시나리오에 걸쳐 모델의 출력을 체계적으로 테스트함으로써, 이러한 모델들이 실제 세계의 물리학을 준수하는 데 직면한 주요 과제를 확인했습니다. 그런 다음 다양한 프롬프트 유형에 따른 다양한 물리적 현상에 대한 성능을 엄격히 검토하여, 물리적 원칙에 대한 충실도를 높이기 위한 프롬프트 작성에 대한 타겟팅된 권장 사항을 도출했습니다.
English
Video generation models have achieved remarkable progress in creating
high-quality, photorealistic content. However, their ability to accurately
simulate physical phenomena remains a critical and unresolved challenge. This
paper presents PhyWorldBench, a comprehensive benchmark designed to evaluate
video generation models based on their adherence to the laws of physics. The
benchmark covers multiple levels of physical phenomena, ranging from
fundamental principles like object motion and energy conservation to more
complex scenarios involving rigid body interactions and human or animal motion.
Additionally, we introduce a novel ""Anti-Physics"" category, where prompts
intentionally violate real-world physics, enabling the assessment of whether
models can follow such instructions while maintaining logical consistency.
Besides large-scale human evaluation, we also design a simple yet effective
method that could utilize current MLLM to evaluate the physics realism in a
zero-shot fashion. We evaluate 12 state-of-the-art text-to-video generation
models, including five open-source and five proprietary models, with a detailed
comparison and analysis. we identify pivotal challenges models face in adhering
to real-world physics. Through systematic testing of their outputs across 1,050
curated prompts-spanning fundamental, composite, and anti-physics scenarios-we
identify pivotal challenges these models face in adhering to real-world
physics. We then rigorously examine their performance on diverse physical
phenomena with varying prompt types, deriving targeted recommendations for
crafting prompts that enhance fidelity to physical principles.