Physics-IQ geverifieerd

Samenvatting

Video generatieve modellen (VGM's) zijn een nieuw front geworden dat niet alleen kan worden gebruikt voor videogeneratie, maar ook voor een groot aantal stroomafwaartse taken, waaronder wereldmodellering. Om deze taken te bevorderen, moet een goed videomodel de fysieke realiteit van de wereld begrijpen. Het evalueren van dit begrip is een opkomend vakgebied en heeft geleid tot de Physics-IQ-benchmark, die dit expliciet kwantificeert door door modellen gegenereerde video's te vergelijken met echte video's van fysische experimenten. In dit werk presenteren we een systematische audit van de Physics-IQ-benchmark, leggen we tekortkomingen bloot en stellen we drie oplossingen voor die scherper stellen hoe we het fysisch begrip van VGM's kunnen meten. In het bijzonder verbeteren we de kwaliteit van prompts en grondwaarheid om de invloed van verstorende factoren te verminderen, en introduceren we verder een scoringssysteem op steekproefniveau dat elk steekproef en elke metriek gelijk weegt. Onze resulterende benchmark, Physics-IQ Verified, verfijnt 57,6% van alle steekproeven en verbetert 34,8% van de prompts. In een vergelijkende studie met zes beeld-naar-video generatieve modellen observeren we gematigde maar betekenisvolle veranderingen in rangschikking (Kendall's τ = 0,46). We hopen dat Physics-IQ Verified de gemeenschap vooruit helpt door een betrouwbaarder signaal te bieden voor fysisch accurate VGM's. De code voor de benchmark is toegankelijk op https://github.com/google-deepmind/physics-iq-benchmark.

English

Video generative models ( VGMs) have become a new frontier that can be used not just for video generation but for a multitude of downstream tasks, including world modeling. To advance these tasks, a good video model must understand the physical reality of the world. Evaluating this understanding is an emerging field and has led to the Physics-IQ benchmark, which quantifies this explicitly by comparing model-generated videos to real-world videos of physical experiments. In this work, we present a systematic audit of the Physics-IQ benchmark, expose shortcomings and propose three solutions that sharpen how we can measure physical understanding of VGMs. Specifically, we improve prompt and ground-truth quality to reduce the influence of confounding factors and further introduce a sample-level scoring system that weights each sample and metric equally. Our resulting benchmark, Physics-IQ Verified, refines 57.6\% of all samples and improves over 34.8\% of prompts. In a comparison study using six image-to-video generative models, we observe moderate but meaningful ranking changes (Kendall's τ= 0.46). We hope Physics-IQ Verified advances the community by providing a more reliable signal toward physically accurate VGMs. The code for the benchmark can be accessed at https://github.com/google-deepmind/physics-iq-benchmark