Physics-IQ Vérifié

Résumé

Les modèles génératifs vidéo (MGVs) constituent une nouvelle frontière, utilisables non seulement pour la génération de vidéos, mais aussi pour une multitude de tâches en aval, y compris la modélisation du monde. Pour faire progresser ces tâches, un bon modèle vidéo doit comprendre la réalité physique du monde. L'évaluation de cette compréhension est un domaine émergent qui a donné naissance au benchmark Physics-IQ, lequel quantifie explicitement cette capacité en comparant des vidéos générées par modèle à des vidéos réelles d'expériences physiques. Dans ce travail, nous présentons un audit systématique du benchmark Physics-IQ, en exposons les lacunes et proposons trois solutions qui affinent la manière de mesurer la compréhension physique des MGVs. Plus précisément, nous améliorons la qualité des prompts et des vérités terrain afin de réduire l'influence des facteurs confondants, et introduisons en outre un système de notation au niveau des échantillons qui pondère chaque échantillon et chaque métrique de manière égale. Le benchmark qui en résulte, Physics-IQ Verified, affine 57,6 % de tous les échantillons et améliore plus de 34,8 % des prompts. Dans une étude comparative utilisant six modèles génératifs image-vers-vidéo, nous observons des changements de classement modérés mais significatifs (τ de Kendall = 0,46). Nous espérons que Physics-IQ Verified fera progresser la communauté en fournissant un signal plus fiable vers des MGVs physiquement précis. Le code du benchmark est accessible à l'adresse https://github.com/google-deepmind/physics-iq-benchmark.

English

Video generative models ( VGMs) have become a new frontier that can be used not just for video generation but for a multitude of downstream tasks, including world modeling. To advance these tasks, a good video model must understand the physical reality of the world. Evaluating this understanding is an emerging field and has led to the Physics-IQ benchmark, which quantifies this explicitly by comparing model-generated videos to real-world videos of physical experiments. In this work, we present a systematic audit of the Physics-IQ benchmark, expose shortcomings and propose three solutions that sharpen how we can measure physical understanding of VGMs. Specifically, we improve prompt and ground-truth quality to reduce the influence of confounding factors and further introduce a sample-level scoring system that weights each sample and metric equally. Our resulting benchmark, Physics-IQ Verified, refines 57.6\% of all samples and improves over 34.8\% of prompts. In a comparison study using six image-to-video generative models, we observe moderate but meaningful ranking changes (Kendall's τ= 0.46). We hope Physics-IQ Verified advances the community by providing a more reliable signal toward physically accurate VGMs. The code for the benchmark can be accessed at https://github.com/google-deepmind/physics-iq-benchmark