ChatPaper.aiChatPaper

Equilíbrio de Correspondência: Modelagem Generativa com Modelos de Energia Implícitos

Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models

October 2, 2025
Autores: Runqian Wang, Yilun Du
cs.AI

Resumo

Apresentamos o Equilibrium Matching (EqM), um framework de modelagem generativa construído a partir de uma perspectiva de dinâmica de equilíbrio. O EqM descarta as dinâmicas condicionadas ao tempo e fora do equilíbrio presentes nos modelos generativos tradicionais baseados em difusão e fluxo, aprendendo, em vez disso, o gradiente de equilíbrio de uma paisagem de energia implícita. Por meio dessa abordagem, podemos adotar um processo de amostragem baseado em otimização durante a inferência, onde as amostras são obtidas por descida de gradiente na paisagem aprendida, com tamanhos de passo ajustáveis, otimizadores adaptativos e computação adaptativa. Empiricamente, o EqM supera o desempenho de geração dos modelos de difusão/fluxo, alcançando um FID de 1,90 no ImageNet 256x256. O EqM também é teoricamente justificado para aprender e amostrar a partir da variedade de dados. Além da geração, o EqM é um framework flexível que naturalmente lida com tarefas como remoção de ruído em imagens parcialmente ruidosas, detecção de dados fora da distribuição (OOD) e composição de imagens. Ao substituir velocidades condicionadas ao tempo por uma paisagem de equilíbrio unificada, o EqM oferece uma ponte mais estreita entre modelos baseados em fluxo e energia, além de uma rota simples para inferência orientada por otimização.
English
We introduce Equilibrium Matching (EqM), a generative modeling framework built from an equilibrium dynamics perspective. EqM discards the non-equilibrium, time-conditional dynamics in traditional diffusion and flow-based generative models and instead learns the equilibrium gradient of an implicit energy landscape. Through this approach, we can adopt an optimization-based sampling process at inference time, where samples are obtained by gradient descent on the learned landscape with adjustable step sizes, adaptive optimizers, and adaptive compute. EqM surpasses the generation performance of diffusion/flow models empirically, achieving an FID of 1.90 on ImageNet 256times256. EqM is also theoretically justified to learn and sample from the data manifold. Beyond generation, EqM is a flexible framework that naturally handles tasks including partially noised image denoising, OOD detection, and image composition. By replacing time-conditional velocities with a unified equilibrium landscape, EqM offers a tighter bridge between flow and energy-based models and a simple route to optimization-driven inference.
PDF52October 8, 2025