Equilibrium Matching: Generatives Modellieren mit impliziten energiebasierten Modellen
Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models
October 2, 2025
papers.authors: Runqian Wang, Yilun Du
cs.AI
papers.abstract
Wir stellen Equilibrium Matching (EqM) vor, ein generatives Modellierungsframework, das aus einer Gleichgewichts-Dynamik-Perspektive entwickelt wurde. EqM verwirft die Nicht-Gleichgewichts-, zeitkonditionierte Dynamik traditioneller Diffusions- und Fluss-basierter generativer Modelle und lernt stattdessen den Gleichgewichtsgradienten einer impliziten Energielandschaft. Durch diesen Ansatz können wir einen optimierungsbasierten Sampling-Prozess zur Inferenzzeit anwenden, bei dem Samples durch Gradientenabstieg auf der gelernten Landschaft mit einstellbaren Schrittgrößen, adaptiven Optimierern und adaptiver Berechnung gewonnen werden. EqM übertrifft die Generierungsleistung von Diffusions-/Fluss-Modellen empirisch und erreicht einen FID von 1,90 auf ImageNet 256×256. EqM ist auch theoretisch gerechtfertigt, um von der Datenmannigfaltigkeit zu lernen und zu sampeln. Über die Generierung hinaus ist EqM ein flexibles Framework, das Aufgaben wie die Entrauschung teilweise verrauschter Bilder, OOD-Erkennung und Bildkomposition natürlich handhabt. Durch den Ersatz zeitkonditionierter Geschwindigkeiten durch eine einheitliche Gleichgewichtslandschaft bietet EqM eine engere Brücke zwischen Fluss- und energiebasierten Modellen und einen einfachen Weg zur optimierungsgetriebenen Inferenz.
English
We introduce Equilibrium Matching (EqM), a generative modeling framework
built from an equilibrium dynamics perspective. EqM discards the
non-equilibrium, time-conditional dynamics in traditional diffusion and
flow-based generative models and instead learns the equilibrium gradient of an
implicit energy landscape. Through this approach, we can adopt an
optimization-based sampling process at inference time, where samples are
obtained by gradient descent on the learned landscape with adjustable step
sizes, adaptive optimizers, and adaptive compute. EqM surpasses the generation
performance of diffusion/flow models empirically, achieving an FID of 1.90 on
ImageNet 256times256. EqM is also theoretically justified to learn and
sample from the data manifold. Beyond generation, EqM is a flexible framework
that naturally handles tasks including partially noised image denoising, OOD
detection, and image composition. By replacing time-conditional velocities with
a unified equilibrium landscape, EqM offers a tighter bridge between flow and
energy-based models and a simple route to optimization-driven inference.