Perdus dans l'espace latent : Une étude empirique des modèles de diffusion latente pour l'émulation de phénomènes physiques
Lost in Latent Space: An Empirical Study of Latent Diffusion Models for Physics Emulation
July 3, 2025
Auteurs: François Rozet, Ruben Ohana, Michael McCabe, Gilles Louppe, François Lanusse, Shirley Ho
cs.AI
Résumé
Le coût computationnel élevé des modèles de diffusion lors de l'inférence entrave leur utilisation comme émulateurs physiques rapides. Dans le contexte de la génération d'images et de vidéos, cet inconvénient computationnel a été résolu en générant dans l'espace latent d'un autoencodeur plutôt que dans l'espace des pixels. Dans ce travail, nous étudions si une stratégie similaire peut être efficacement appliquée à l'émulation de systèmes dynamiques et à quel coût. Nous constatons que la précision de l'émulation dans l'espace latent est étonnamment robuste à une large gamme de taux de compression (jusqu'à 1000x). Nous montrons également que les émulateurs basés sur la diffusion sont systématiquement plus précis que leurs homologues non génératifs et compensent l'incertitude de leurs prédictions par une plus grande diversité. Enfin, nous abordons les choix de conception pratiques, allant des architectures aux optimiseurs, que nous avons jugés essentiels pour entraîner des émulateurs dans l'espace latent.
English
The steep computational cost of diffusion models at inference hinders their
use as fast physics emulators. In the context of image and video generation,
this computational drawback has been addressed by generating in the latent
space of an autoencoder instead of the pixel space. In this work, we
investigate whether a similar strategy can be effectively applied to the
emulation of dynamical systems and at what cost. We find that the accuracy of
latent-space emulation is surprisingly robust to a wide range of compression
rates (up to 1000x). We also show that diffusion-based emulators are
consistently more accurate than non-generative counterparts and compensate for
uncertainty in their predictions with greater diversity. Finally, we cover
practical design choices, spanning from architectures to optimizers, that we
found critical to train latent-space emulators.