Equilíbrio de Correspondência: Modelagem Generativa com Modelos de Energia Implícitos
Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models
October 2, 2025
Autores: Runqian Wang, Yilun Du
cs.AI
Resumo
Apresentamos o Equilibrium Matching (EqM), um framework de modelagem generativa construído a partir de uma perspectiva de dinâmica de equilíbrio. O EqM descarta as dinâmicas condicionadas ao tempo e fora do equilíbrio presentes nos modelos generativos tradicionais baseados em difusão e fluxo, aprendendo, em vez disso, o gradiente de equilíbrio de uma paisagem de energia implícita. Por meio dessa abordagem, podemos adotar um processo de amostragem baseado em otimização durante a inferência, onde as amostras são obtidas por descida de gradiente na paisagem aprendida, com tamanhos de passo ajustáveis, otimizadores adaptativos e computação adaptativa. Empiricamente, o EqM supera o desempenho de geração dos modelos de difusão/fluxo, alcançando um FID de 1,90 no ImageNet 256x256. O EqM também é teoricamente justificado para aprender e amostrar a partir da variedade de dados. Além da geração, o EqM é um framework flexível que naturalmente lida com tarefas como remoção de ruído em imagens parcialmente ruidosas, detecção de dados fora da distribuição (OOD) e composição de imagens. Ao substituir velocidades condicionadas ao tempo por uma paisagem de equilíbrio unificada, o EqM oferece uma ponte mais estreita entre modelos baseados em fluxo e energia, além de uma rota simples para inferência orientada por otimização.
English
We introduce Equilibrium Matching (EqM), a generative modeling framework
built from an equilibrium dynamics perspective. EqM discards the
non-equilibrium, time-conditional dynamics in traditional diffusion and
flow-based generative models and instead learns the equilibrium gradient of an
implicit energy landscape. Through this approach, we can adopt an
optimization-based sampling process at inference time, where samples are
obtained by gradient descent on the learned landscape with adjustable step
sizes, adaptive optimizers, and adaptive compute. EqM surpasses the generation
performance of diffusion/flow models empirically, achieving an FID of 1.90 on
ImageNet 256times256. EqM is also theoretically justified to learn and
sample from the data manifold. Beyond generation, EqM is a flexible framework
that naturally handles tasks including partially noised image denoising, OOD
detection, and image composition. By replacing time-conditional velocities with
a unified equilibrium landscape, EqM offers a tighter bridge between flow and
energy-based models and a simple route to optimization-driven inference.