LikePhys : Évaluation de la compréhension intuitive de la physique dans les modèles de diffusion vidéo via la préférence de vraisemblance
LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference
October 13, 2025
papers.authors: Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini
cs.AI
papers.abstract
La compréhension intuitive de la physique dans les modèles de diffusion vidéo joue un rôle essentiel dans la construction de simulateurs de monde physiquement plausibles à usage général. Cependant, évaluer avec précision cette capacité reste une tâche complexe en raison de la difficulté à dissocier la justesse physique de l'apparence visuelle dans la génération. À cette fin, nous introduisons LikePhys, une méthode sans apprentissage qui évalue la physique intuitive dans les modèles de diffusion vidéo en distinguant les vidéos physiquement valides et impossibles, en utilisant l'objectif de débruitage comme substitut de vraisemblance basé sur ELBO sur un ensemble de données soigneusement sélectionné de paires valides-invalides. En testant sur notre benchmark construit de douze scénarios couvrant quatre domaines physiques, nous montrons que notre métrique d'évaluation, l'Erreur de Préférence de Plausibilité (PPE), démontre une forte corrélation avec les préférences humaines, surpassant les évaluateurs de pointe existants. Nous évaluons ensuite systématiquement la compréhension intuitive de la physique dans les modèles de diffusion vidéo actuels. Notre étude analyse également comment la conception du modèle et les paramètres d'inférence influencent cette compréhension et met en lumière les variations de capacité spécifiques aux domaines à travers les lois physiques. Les résultats empiriques montrent que, bien que les modèles actuels peinent avec les dynamiques complexes et chaotiques, il existe une tendance claire d'amélioration dans la compréhension de la physique à mesure que la capacité du modèle et les paramètres d'inférence augmentent.
English
Intuitive physics understanding in video diffusion models plays an essential
role in building general-purpose physically plausible world simulators, yet
accurately evaluating such capacity remains a challenging task due to the
difficulty in disentangling physics correctness from visual appearance in
generation. To the end, we introduce LikePhys, a training-free method that
evaluates intuitive physics in video diffusion models by distinguishing
physically valid and impossible videos using the denoising objective as an
ELBO-based likelihood surrogate on a curated dataset of valid-invalid pairs. By
testing on our constructed benchmark of twelve scenarios spanning over four
physics domains, we show that our evaluation metric, Plausibility Preference
Error (PPE), demonstrates strong alignment with human preference, outperforming
state-of-the-art evaluator baselines. We then systematically benchmark
intuitive physics understanding in current video diffusion models. Our study
further analyses how model design and inference settings affect intuitive
physics understanding and highlights domain-specific capacity variations across
physical laws. Empirical results show that, despite current models struggling
with complex and chaotic dynamics, there is a clear trend of improvement in
physics understanding as model capacity and inference settings scale.