Équilibrage par Correspondance : Modélisation Générative avec Modèles Énergétiques Implicites
Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models
October 2, 2025
papers.authors: Runqian Wang, Yilun Du
cs.AI
papers.abstract
Nous présentons Equilibrium Matching (EqM), un cadre de modélisation générative construit à partir d'une perspective de dynamique d'équilibre. EqM abandonne les dynamiques conditionnées par le temps et non-équilibrées des modèles génératifs traditionnels basés sur la diffusion et les flux, et apprend plutôt le gradient d'équilibre d'un paysage énergétique implicite. Grâce à cette approche, nous pouvons adopter un processus d'échantillonnage basé sur l'optimisation lors de l'inférence, où les échantillons sont obtenus par descente de gradient sur le paysage appris, avec des tailles de pas ajustables, des optimiseurs adaptatifs et un calcul adaptatif. EqM surpasse empiriquement les performances de génération des modèles de diffusion/flux, atteignant un FID de 1,90 sur ImageNet 256×256. EqM est également justifié théoriquement pour apprendre et échantillonner à partir de la variété de données. Au-delà de la génération, EqM est un cadre flexible qui gère naturellement des tâches incluant le débruitage d'images partiellement bruitées, la détection de données hors distribution (OOD) et la composition d'images. En remplaçant les vitesses conditionnées par le temps par un paysage d'équilibre unifié, EqM offre un pont plus étroit entre les modèles de flux et les modèles basés sur l'énergie, ainsi qu'une voie simple vers l'inférence pilotée par l'optimisation.
English
We introduce Equilibrium Matching (EqM), a generative modeling framework
built from an equilibrium dynamics perspective. EqM discards the
non-equilibrium, time-conditional dynamics in traditional diffusion and
flow-based generative models and instead learns the equilibrium gradient of an
implicit energy landscape. Through this approach, we can adopt an
optimization-based sampling process at inference time, where samples are
obtained by gradient descent on the learned landscape with adjustable step
sizes, adaptive optimizers, and adaptive compute. EqM surpasses the generation
performance of diffusion/flow models empirically, achieving an FID of 1.90 on
ImageNet 256times256. EqM is also theoretically justified to learn and
sample from the data manifold. Beyond generation, EqM is a flexible framework
that naturally handles tasks including partially noised image denoising, OOD
detection, and image composition. By replacing time-conditional velocities with
a unified equilibrium landscape, EqM offers a tighter bridge between flow and
energy-based models and a simple route to optimization-driven inference.