Equilibrium Matching: Generatives Modellieren mit impliziten energiebasierten Modellen

papers.abstract

Wir stellen Equilibrium Matching (EqM) vor, ein generatives Modellierungsframework, das aus einer Gleichgewichts-Dynamik-Perspektive entwickelt wurde. EqM verwirft die Nicht-Gleichgewichts-, zeitkonditionierte Dynamik traditioneller Diffusions- und Fluss-basierter generativer Modelle und lernt stattdessen den Gleichgewichtsgradienten einer impliziten Energielandschaft. Durch diesen Ansatz können wir einen optimierungsbasierten Sampling-Prozess zur Inferenzzeit anwenden, bei dem Samples durch Gradientenabstieg auf der gelernten Landschaft mit einstellbaren Schrittgrößen, adaptiven Optimierern und adaptiver Berechnung gewonnen werden. EqM übertrifft die Generierungsleistung von Diffusions-/Fluss-Modellen empirisch und erreicht einen FID von 1,90 auf ImageNet 256×256. EqM ist auch theoretisch gerechtfertigt, um von der Datenmannigfaltigkeit zu lernen und zu sampeln. Über die Generierung hinaus ist EqM ein flexibles Framework, das Aufgaben wie die Entrauschung teilweise verrauschter Bilder, OOD-Erkennung und Bildkomposition natürlich handhabt. Durch den Ersatz zeitkonditionierter Geschwindigkeiten durch eine einheitliche Gleichgewichtslandschaft bietet EqM eine engere Brücke zwischen Fluss- und energiebasierten Modellen und einen einfachen Weg zur optimierungsgetriebenen Inferenz.

English

We introduce Equilibrium Matching (EqM), a generative modeling framework built from an equilibrium dynamics perspective. EqM discards the non-equilibrium, time-conditional dynamics in traditional diffusion and flow-based generative models and instead learns the equilibrium gradient of an implicit energy landscape. Through this approach, we can adopt an optimization-based sampling process at inference time, where samples are obtained by gradient descent on the learned landscape with adjustable step sizes, adaptive optimizers, and adaptive compute. EqM surpasses the generation performance of diffusion/flow models empirically, achieving an FID of 1.90 on ImageNet 256times256. EqM is also theoretically justified to learn and sample from the data manifold. Beyond generation, EqM is a flexible framework that naturally handles tasks including partially noised image denoising, OOD detection, and image composition. By replacing time-conditional velocities with a unified equilibrium landscape, EqM offers a tighter bridge between flow and energy-based models and a simple route to optimization-driven inference.

Equilibrium Matching: Generatives Modellieren mit impliziten energiebasierten Modellen

Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models

papers.abstract

Support