LikePhys: Evaluación de la Comprensión de la Física Intuitiva en Modelos de Difusión de Video mediante la Preferencia de Verosimilitud
LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference
October 13, 2025
Autores: Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini
cs.AI
Resumen
La comprensión intuitiva de la física en los modelos de difusión de video desempeña un papel esencial en la construcción de simuladores del mundo físicamente plausibles de propósito general. Sin embargo, evaluar con precisión dicha capacidad sigue siendo una tarea desafiante debido a la dificultad de separar la corrección física de la apariencia visual en la generación. Con este fin, presentamos LikePhys, un método que no requiere entrenamiento y que evalúa la física intuitiva en modelos de difusión de video al distinguir videos físicamente válidos e imposibles utilizando el objetivo de eliminación de ruido como un sustituto de la verosimilitud basado en ELBO en un conjunto de datos curado de pares válidos-inválidos. Al probar en nuestro banco de pruebas construido de doce escenarios que abarcan cuatro dominios de la física, demostramos que nuestra métrica de evaluación, el Error de Preferencia de Plausibilidad (PPE), muestra una fuerte alineación con la preferencia humana, superando a los evaluadores de última generación. Luego, evaluamos sistemáticamente la comprensión intuitiva de la física en los modelos actuales de difusión de video. Nuestro estudio analiza además cómo el diseño del modelo y los ajustes de inferencia afectan la comprensión intuitiva de la física y destaca variaciones de capacidad específicas del dominio en las leyes físicas. Los resultados empíricos muestran que, a pesar de que los modelos actuales tienen dificultades con dinámicas complejas y caóticas, existe una clara tendencia de mejora en la comprensión de la física a medida que la capacidad del modelo y los ajustes de inferencia escalan.
English
Intuitive physics understanding in video diffusion models plays an essential
role in building general-purpose physically plausible world simulators, yet
accurately evaluating such capacity remains a challenging task due to the
difficulty in disentangling physics correctness from visual appearance in
generation. To the end, we introduce LikePhys, a training-free method that
evaluates intuitive physics in video diffusion models by distinguishing
physically valid and impossible videos using the denoising objective as an
ELBO-based likelihood surrogate on a curated dataset of valid-invalid pairs. By
testing on our constructed benchmark of twelve scenarios spanning over four
physics domains, we show that our evaluation metric, Plausibility Preference
Error (PPE), demonstrates strong alignment with human preference, outperforming
state-of-the-art evaluator baselines. We then systematically benchmark
intuitive physics understanding in current video diffusion models. Our study
further analyses how model design and inference settings affect intuitive
physics understanding and highlights domain-specific capacity variations across
physical laws. Empirical results show that, despite current models struggling
with complex and chaotic dynamics, there is a clear trend of improvement in
physics understanding as model capacity and inference settings scale.