Physics-IQ верифицирован

Аннотация

Видеогенеративные модели (ВГМ) стали новым рубежом: они могут применяться не только для генерации видео, но и для множества последующих задач, включая моделирование мира. Для продвижения этих задач хорошая видеомодель должна понимать физическую реальность мира. Оценка этого понимания является формирующейся областью и привела к созданию бенчмарка Physics-IQ, который явно количественно оценивает его путём сравнения видео, сгенерированных моделью, с реальными видеозаписями физических экспериментов. В данной работе мы проводим систематическую верификацию бенчмарка Physics-IQ, выявляем его недостатки и предлагаем три решения, позволяющие более точно измерить физическое понимание ВГМ. В частности, мы улучшаем качество промптов и эталонных данных для уменьшения влияния смешивающих факторов, а также вводим систему оценки на уровне отдельных образцов, которая одинаково взвешивает каждый образец и каждую метрику. Наш итоговый бенчмарк, Physics-IQ Verified, уточняет 57,6% всех образцов и улучшает 34,8% промптов. В сравнительном исследовании шести генеративных моделей изображение-в-видео мы наблюдаем умеренные, но значимые изменения ранжирования (коэффициент Кендалла τ = 0,46). Мы надеемся, что Physics-IQ Verified продвинет сообщество вперёд, предоставляя более надёжный сигнал для физически точных ВГМ. Код бенчмарка доступен по адресу: https://github.com/google-deepmind/physics-iq-benchmark

English

Video generative models ( VGMs) have become a new frontier that can be used not just for video generation but for a multitude of downstream tasks, including world modeling. To advance these tasks, a good video model must understand the physical reality of the world. Evaluating this understanding is an emerging field and has led to the Physics-IQ benchmark, which quantifies this explicitly by comparing model-generated videos to real-world videos of physical experiments. In this work, we present a systematic audit of the Physics-IQ benchmark, expose shortcomings and propose three solutions that sharpen how we can measure physical understanding of VGMs. Specifically, we improve prompt and ground-truth quality to reduce the influence of confounding factors and further introduce a sample-level scoring system that weights each sample and metric equally. Our resulting benchmark, Physics-IQ Verified, refines 57.6\% of all samples and improves over 34.8\% of prompts. In a comparison study using six image-to-video generative models, we observe moderate but meaningful ranking changes (Kendall's τ= 0.46). We hope Physics-IQ Verified advances the community by providing a more reliable signal toward physically accurate VGMs. The code for the benchmark can be accessed at https://github.com/google-deepmind/physics-iq-benchmark