Equilibrio de Emparejamiento: Modelado Generativo con Modelos de Energía Implícita

Resumen

Presentamos Equilibrium Matching (EqM), un marco de modelado generativo construido desde una perspectiva de dinámica de equilibrio. EqM descarta las dinámicas condicionadas en el tiempo y fuera de equilibrio presentes en los modelos generativos tradicionales basados en difusión y flujo, y en su lugar aprende el gradiente de equilibrio de un paisaje de energía implícito. A través de este enfoque, podemos adoptar un proceso de muestreo basado en optimización durante la inferencia, donde las muestras se obtienen mediante descenso de gradiente en el paisaje aprendido con tamaños de paso ajustables, optimizadores adaptativos y cómputo adaptable. Empíricamente, EqM supera el rendimiento de generación de los modelos de difusión/flujo, logrando un FID de 1.90 en ImageNet 256×256. Además, EqM está teóricamente justificado para aprender y muestrear a partir de la variedad de datos. Más allá de la generación, EqM es un marco flexible que maneja de manera natural tareas como la eliminación de ruido en imágenes parcialmente ruidosas, la detección de datos fuera de distribución (OOD) y la composición de imágenes. Al reemplazar las velocidades condicionadas en el tiempo con un paisaje de equilibrio unificado, EqM ofrece un puente más estrecho entre los modelos de flujo y los basados en energía, así como una ruta simple hacia la inferencia impulsada por optimización.

English

We introduce Equilibrium Matching (EqM), a generative modeling framework built from an equilibrium dynamics perspective. EqM discards the non-equilibrium, time-conditional dynamics in traditional diffusion and flow-based generative models and instead learns the equilibrium gradient of an implicit energy landscape. Through this approach, we can adopt an optimization-based sampling process at inference time, where samples are obtained by gradient descent on the learned landscape with adjustable step sizes, adaptive optimizers, and adaptive compute. EqM surpasses the generation performance of diffusion/flow models empirically, achieving an FID of 1.90 on ImageNet 256times256. EqM is also theoretically justified to learn and sample from the data manifold. Beyond generation, EqM is a flexible framework that naturally handles tasks including partially noised image denoising, OOD detection, and image composition. By replacing time-conditional velocities with a unified equilibrium landscape, EqM offers a tighter bridge between flow and energy-based models and a simple route to optimization-driven inference.

Equilibrio de Emparejamiento: Modelado Generativo con Modelos de Energía Implícita

Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models

Resumen

Support