Physics-IQ Verificado

Resumen

Los modelos generativos de video (VGM, por sus siglas en inglés) se han convertido en una nueva frontera que puede utilizarse no solo para la generación de video, sino para una multitud de tareas posteriores, incluido el modelado del mundo. Para avanzar en estas tareas, un buen modelo de video debe comprender la realidad física del mundo. Evaluar esta comprensión es un campo emergente y ha dado lugar al punto de referencia Physics-IQ, que la cuantifica explícitamente al comparar videos generados por modelos con videos reales de experimentos físicos. En este trabajo, presentamos una auditoría sistemática del punto de referencia Physics-IQ, exponemos sus limitaciones y proponemos tres soluciones que agudizan la forma en que podemos medir la comprensión física de los VGM. Específicamente, mejoramos la calidad de las instrucciones (prompts) y de las verdades fundamentales (ground-truth) para reducir la influencia de factores de confusión, e introducimos un sistema de puntuación a nivel de muestra que pondera cada muestra y métrica por igual. Nuestro punto de referencia resultante, Physics-IQ Verified, refina el 57.6 % de todas las muestras y mejora más del 34.8 % de las instrucciones. En un estudio comparativo utilizando seis modelos generativos de imagen a video, observamos cambios de clasificación moderados pero significativos (τ de Kendall = 0.46). Esperamos que Physics-IQ Verified impulse a la comunidad al proporcionar una señal más fiable hacia VGM físicamente precisos. El código del punto de referencia se puede acceder en https://github.com/google-deepmind/physics-iq-benchmark.

English

Video generative models ( VGMs) have become a new frontier that can be used not just for video generation but for a multitude of downstream tasks, including world modeling. To advance these tasks, a good video model must understand the physical reality of the world. Evaluating this understanding is an emerging field and has led to the Physics-IQ benchmark, which quantifies this explicitly by comparing model-generated videos to real-world videos of physical experiments. In this work, we present a systematic audit of the Physics-IQ benchmark, expose shortcomings and propose three solutions that sharpen how we can measure physical understanding of VGMs. Specifically, we improve prompt and ground-truth quality to reduce the influence of confounding factors and further introduce a sample-level scoring system that weights each sample and metric equally. Our resulting benchmark, Physics-IQ Verified, refines 57.6\% of all samples and improves over 34.8\% of prompts. In a comparison study using six image-to-video generative models, we observe moderate but meaningful ranking changes (Kendall's τ= 0.46). We hope Physics-IQ Verified advances the community by providing a more reliable signal toward physically accurate VGMs. The code for the benchmark can be accessed at https://github.com/google-deepmind/physics-iq-benchmark