ChatPaper.aiChatPaper

LikePhys: Valutazione della Comprensione della Fisica Intuitiva nei Modelli di Diffusione Video tramite Preferenza di Verosimiglianza

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

October 13, 2025
Autori: Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini
cs.AI

Abstract

La comprensione intuitiva della fisica nei modelli di diffusione video svolge un ruolo essenziale nella costruzione di simulatori mondiali fisicamente plausibili e di uso generale. Tuttavia, valutare con precisione tale capacità rimane un compito impegnativo a causa della difficoltà nel distinguere la correttezza fisica dall'aspetto visivo nella generazione. A tal fine, introduciamo LikePhys, un metodo senza addestramento che valuta la fisica intuitiva nei modelli di diffusione video distinguendo video fisicamente validi e impossibili utilizzando l'obiettivo di denoising come surrogato della verosimiglianza basato su ELBO su un dataset curato di coppie valide-invalide. Testando sul nostro benchmark costruito di dodici scenari che coprono quattro domini fisici, dimostriamo che la nostra metrica di valutazione, l'Errore di Preferenza di Plausibilità (PPE), mostra una forte allineamento con le preferenze umane, superando i valutatori di stato dell'arte. Successivamente, eseguiamo un benchmark sistematico della comprensione intuitiva della fisica nei modelli di diffusione video attuali. Il nostro studio analizza ulteriormente come il design del modello e le impostazioni di inferenza influenzano la comprensione intuitiva della fisica e mette in evidenza variazioni di capacità specifiche per dominio attraverso le leggi fisiche. I risultati empirici mostrano che, nonostante i modelli attuali abbiano difficoltà con dinamiche complesse e caotiche, c'è una chiara tendenza al miglioramento nella comprensione della fisica man mano che la capacità del modello e le impostazioni di inferenza aumentano.
English
Intuitive physics understanding in video diffusion models plays an essential role in building general-purpose physically plausible world simulators, yet accurately evaluating such capacity remains a challenging task due to the difficulty in disentangling physics correctness from visual appearance in generation. To the end, we introduce LikePhys, a training-free method that evaluates intuitive physics in video diffusion models by distinguishing physically valid and impossible videos using the denoising objective as an ELBO-based likelihood surrogate on a curated dataset of valid-invalid pairs. By testing on our constructed benchmark of twelve scenarios spanning over four physics domains, we show that our evaluation metric, Plausibility Preference Error (PPE), demonstrates strong alignment with human preference, outperforming state-of-the-art evaluator baselines. We then systematically benchmark intuitive physics understanding in current video diffusion models. Our study further analyses how model design and inference settings affect intuitive physics understanding and highlights domain-specific capacity variations across physical laws. Empirical results show that, despite current models struggling with complex and chaotic dynamics, there is a clear trend of improvement in physics understanding as model capacity and inference settings scale.
PDF62October 14, 2025