Physik-IQ verifiziert

Zusammenfassung

Videogenerative Modelle (VGMs) haben sich zu einer neuen Grenze entwickelt, die nicht nur zur Videogenerierung, sondern auch für eine Vielzahl nachgelagerter Aufgaben, einschließlich der Weltmodellierung, eingesetzt werden kann. Um diese Aufgaben voranzubringen, muss ein gutes Videomodell die physikalische Realität der Welt verstehen. Die Bewertung dieses Verständnisses ist ein aufstrebendes Feld und hat zum Physics-IQ-Benchmark geführt, der dieses explizit quantifiziert, indem er modellgenerierte Videos mit realen Videos physikalischer Experimente vergleicht. In dieser Arbeit präsentieren wir eine systematische Überprüfung des Physics-IQ-Benchmarks, decken Schwächen auf und schlagen drei Lösungen vor, die messen, wie wir das physikalische Verständnis von VGMs schärfen können. Insbesondere verbessern wir die Qualität der Prompts und Ground-Truth, um den Einfluss von Störfaktoren zu reduzieren, und führen zudem ein Stichproben-bewertungssystem auf Sample-Ebene ein, das jede Stichprobe und Metrik gleich gewichtet. Unser daraus resultierender Benchmark, Physics-IQ Verified, verfeinert 57,6% aller Stichproben und verbessert 34,8% der Prompts. In einer Vergleichsstudie mit sechs Bild-zu-Video generativen Modellen beobachten wir moderate, aber bedeutsame Rangänderungen (Kendall's τ = 0,46). Wir hoffen, dass Physics-IQ Verified die Gemeinschaft voranbringt, indem es ein zuverlässigeres Signal für physikalisch genaue VGMs liefert. Der Code für den Benchmark ist unter https://github.com/google-deepmind/physics-iq-benchmark zugänglich.

English

Video generative models ( VGMs) have become a new frontier that can be used not just for video generation but for a multitude of downstream tasks, including world modeling. To advance these tasks, a good video model must understand the physical reality of the world. Evaluating this understanding is an emerging field and has led to the Physics-IQ benchmark, which quantifies this explicitly by comparing model-generated videos to real-world videos of physical experiments. In this work, we present a systematic audit of the Physics-IQ benchmark, expose shortcomings and propose three solutions that sharpen how we can measure physical understanding of VGMs. Specifically, we improve prompt and ground-truth quality to reduce the influence of confounding factors and further introduce a sample-level scoring system that weights each sample and metric equally. Our resulting benchmark, Physics-IQ Verified, refines 57.6\% of all samples and improves over 34.8\% of prompts. In a comparison study using six image-to-video generative models, we observe moderate but meaningful ranking changes (Kendall's τ= 0.46). We hope Physics-IQ Verified advances the community by providing a more reliable signal toward physically accurate VGMs. The code for the benchmark can be accessed at https://github.com/google-deepmind/physics-iq-benchmark