Потерянные в латентном пространстве: эмпирическое исследование моделей латентной диффузии для эмуляции физических процессов
Lost in Latent Space: An Empirical Study of Latent Diffusion Models for Physics Emulation
July 3, 2025
Авторы: François Rozet, Ruben Ohana, Michael McCabe, Gilles Louppe, François Lanusse, Shirley Ho
cs.AI
Аннотация
Высокие вычислительные затраты диффузионных моделей на этапе вывода препятствуют их использованию в качестве быстрых эмуляторов физических процессов. В контексте генерации изображений и видео этот вычислительный недостаток был устранен путем генерации в латентном пространстве автоэнкодера вместо пространства пикселей. В данной работе мы исследуем, может ли аналогичная стратегия быть эффективно применена для эмуляции динамических систем и с какими затратами. Мы обнаруживаем, что точность эмуляции в латентном пространстве удивительно устойчива к широкому диапазону степеней сжатия (до 1000 раз). Мы также показываем, что диффузионные эмуляторы последовательно более точны, чем их негенеративные аналоги, и компенсируют неопределенность в своих предсказаниях за счет большего разнообразия. Наконец, мы рассматриваем практические аспекты проектирования, начиная с архитектур и заканчивая оптимизаторами, которые, как мы выяснили, имеют критическое значение для обучения эмуляторов в латентном пространстве.
English
The steep computational cost of diffusion models at inference hinders their
use as fast physics emulators. In the context of image and video generation,
this computational drawback has been addressed by generating in the latent
space of an autoencoder instead of the pixel space. In this work, we
investigate whether a similar strategy can be effectively applied to the
emulation of dynamical systems and at what cost. We find that the accuracy of
latent-space emulation is surprisingly robust to a wide range of compression
rates (up to 1000x). We also show that diffusion-based emulators are
consistently more accurate than non-generative counterparts and compensate for
uncertainty in their predictions with greater diversity. Finally, we cover
practical design choices, spanning from architectures to optimizers, that we
found critical to train latent-space emulators.