Equilibrium Matching: Modellazione Generativa con Modelli Impliciti Basati sull'Energia
Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models
October 2, 2025
Autori: Runqian Wang, Yilun Du
cs.AI
Abstract
Introduciamo Equilibrium Matching (EqM), un framework di modellazione generativa costruito da una prospettiva di dinamica di equilibrio. EqM abbandona le dinamiche condizionate al tempo e non di equilibrio presenti nei tradizionali modelli generativi basati su diffusione e flusso, e invece apprende il gradiente di equilibrio di un paesaggio energetico implicito. Attraverso questo approccio, possiamo adottare un processo di campionamento basato sull'ottimizzazione al momento dell'inferenza, dove i campioni vengono ottenuti mediante discesa del gradiente sul paesaggio appreso con dimensioni dei passi regolabili, ottimizzatori adattivi e calcolo adattivo. EqM supera empiricamente le prestazioni di generazione dei modelli di diffusione/flusso, raggiungendo un FID di 1.90 su ImageNet 256×256. EqM è inoltre giustificato teoricamente per apprendere e campionare dalla varietà dei dati. Oltre alla generazione, EqM è un framework flessibile che gestisce naturalmente compiti come la rimozione del rumore da immagini parzialmente rumorose, il rilevamento di dati fuori distribuzione (OOD) e la composizione di immagini. Sostituendo le velocità condizionate al tempo con un paesaggio di equilibrio unificato, EqM offre un ponte più stretto tra i modelli basati su flusso e quelli basati sull'energia, e una via semplice verso l'inferenza guidata dall'ottimizzazione.
English
We introduce Equilibrium Matching (EqM), a generative modeling framework
built from an equilibrium dynamics perspective. EqM discards the
non-equilibrium, time-conditional dynamics in traditional diffusion and
flow-based generative models and instead learns the equilibrium gradient of an
implicit energy landscape. Through this approach, we can adopt an
optimization-based sampling process at inference time, where samples are
obtained by gradient descent on the learned landscape with adjustable step
sizes, adaptive optimizers, and adaptive compute. EqM surpasses the generation
performance of diffusion/flow models empirically, achieving an FID of 1.90 on
ImageNet 256times256. EqM is also theoretically justified to learn and
sample from the data manifold. Beyond generation, EqM is a flexible framework
that naturally handles tasks including partially noised image denoising, OOD
detection, and image composition. By replacing time-conditional velocities with
a unified equilibrium landscape, EqM offers a tighter bridge between flow and
energy-based models and a simple route to optimization-driven inference.