К созданию мирового симулятора: разработка физического бенчмарка на основе здравого смысла для генерации видео.
Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation
October 7, 2024
Авторы: Fanqing Meng, Jiaqi Liao, Xinyu Tan, Wenqi Shao, Quanfeng Lu, Kaipeng Zhang, Yu Cheng, Dianqi Li, Yu Qiao, Ping Luo
cs.AI
Аннотация
Модели текст-видео (T2V), такие как Sora, сделали значительные успехи в визуализации сложных подсказок, что все чаще рассматривается как многообещающий путь к созданию универсального симулятора мира. Когнитивные психологи считают, что основой для достижения этой цели является способность понимать интуитивную физику. Однако возможности этих моделей точно представлять интуитивную физику остаются в значительной степени неизученными. Для заполнения этой пробела мы представляем PhyGenBench, обширный бенчмарк генерации физики, разработанный для оценки правильности физического здравого смысла в генерации T2V. PhyGenBench включает 160 тщательно разработанных подсказок по 27 различным физическим законам, охватывающих четыре фундаментальных области, которые могут всесторонне оценить понимание моделями физического здравого смысла. Вместе с PhyGenBench мы предлагаем новую систему оценки под названием PhyGenEval. Эта система использует иерархическую структуру оценки, используя соответствующие передовые модели видео-языка и большие языковые модели для оценки физического здравого смысла. С помощью PhyGenBench и PhyGenEval мы можем проводить масштабные автоматизированные оценки понимания моделями T2V физического здравого смысла, которые тесно соответствуют обратной связи от людей. Наши результаты оценки и глубокий анализ показывают, что текущие модели испытывают трудности в создании видеороликов, соответствующих физическому здравому смыслу. Более того, простое масштабирование моделей или использование техник инженерии подсказок недостаточно для полного решения проблем, представленных PhyGenBench (например, динамические сценарии). Мы надеемся, что данное исследование вдохновит сообщество отдать приоритет изучению физического здравого смысла в этих моделях за пределами развлекательных приложений. Мы опубликуем данные и коды на https://github.com/OpenGVLab/PhyGenBench
English
Text-to-video (T2V) models like Sora have made significant strides in
visualizing complex prompts, which is increasingly viewed as a promising path
towards constructing the universal world simulator. Cognitive psychologists
believe that the foundation for achieving this goal is the ability to
understand intuitive physics. However, the capacity of these models to
accurately represent intuitive physics remains largely unexplored. To bridge
this gap, we introduce PhyGenBench, a comprehensive Physics
Generation Benchmark designed to evaluate physical
commonsense correctness in T2V generation. PhyGenBench comprises 160 carefully
crafted prompts across 27 distinct physical laws, spanning four fundamental
domains, which could comprehensively assesses models' understanding of physical
commonsense. Alongside PhyGenBench, we propose a novel evaluation framework
called PhyGenEval. This framework employs a hierarchical evaluation structure
utilizing appropriate advanced vision-language models and large language models
to assess physical commonsense. Through PhyGenBench and PhyGenEval, we can
conduct large-scale automated assessments of T2V models' understanding of
physical commonsense, which align closely with human feedback. Our evaluation
results and in-depth analysis demonstrate that current models struggle to
generate videos that comply with physical commonsense. Moreover, simply scaling
up models or employing prompt engineering techniques is insufficient to fully
address the challenges presented by PhyGenBench (e.g., dynamic scenarios). We
hope this study will inspire the community to prioritize the learning of
physical commonsense in these models beyond entertainment applications. We will
release the data and codes at https://github.com/OpenGVLab/PhyGenBenchSummary
AI-Generated Summary