Physics-IQ Verificado

Resumo

Os modelos generativos de vídeo (VGMs) tornaram-se uma nova fronteira, podendo ser utilizados não apenas para geração de vídeos, mas para uma multiplicidade de tarefas subsequentes, incluindo a modelagem do mundo. Para avançar nessas tarefas, um bom modelo de vídeo deve compreender a realidade física do mundo. Avaliar essa compreensão é um campo emergente e levou à criação do benchmark Physics-IQ, que a quantifica explicitamente ao comparar vídeos gerados por modelos com vídeos do mundo real de experimentos físicos. Neste trabalho, apresentamos uma auditoria sistemática do benchmark Physics-IQ, expomos suas limitações e propomos três soluções que aprimoram a forma como podemos mensurar a compreensão física dos VGMs. Especificamente, melhoramos a qualidade dos prompts e dos dados de referência (ground truth) para reduzir a influência de fatores de confusão, e introduzimos um sistema de pontuação por amostra que pondera cada amostra e cada métrica igualmente. Nosso benchmark resultante, Physics-IQ Verified, refina 57,6% de todas as amostras e melhora 34,8% dos prompts. Em um estudo comparativo utilizando seis modelos generativos de imagem para vídeo, observamos mudanças moderadas, porém significativas, nas classificações (τ de Kendall = 0,46). Esperamos que o Physics-IQ Verified ajude a comunidade ao fornecer um sinal mais confiável em direção a VGMs fisicamente precisos. O código do benchmark pode ser acessado em https://github.com/google-deepmind/physics-iq-benchmark

English

Video generative models ( VGMs) have become a new frontier that can be used not just for video generation but for a multitude of downstream tasks, including world modeling. To advance these tasks, a good video model must understand the physical reality of the world. Evaluating this understanding is an emerging field and has led to the Physics-IQ benchmark, which quantifies this explicitly by comparing model-generated videos to real-world videos of physical experiments. In this work, we present a systematic audit of the Physics-IQ benchmark, expose shortcomings and propose three solutions that sharpen how we can measure physical understanding of VGMs. Specifically, we improve prompt and ground-truth quality to reduce the influence of confounding factors and further introduce a sample-level scoring system that weights each sample and metric equally. Our resulting benchmark, Physics-IQ Verified, refines 57.6\% of all samples and improves over 34.8\% of prompts. In a comparison study using six image-to-video generative models, we observe moderate but meaningful ranking changes (Kendall's τ= 0.46). We hope Physics-IQ Verified advances the community by providing a more reliable signal toward physically accurate VGMs. The code for the benchmark can be accessed at https://github.com/google-deepmind/physics-iq-benchmark