Equilibrio de Emparejamiento: Modelado Generativo con Modelos de Energía Implícita
Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models
October 2, 2025
Autores: Runqian Wang, Yilun Du
cs.AI
Resumen
Presentamos Equilibrium Matching (EqM), un marco de modelado generativo construido desde una perspectiva de dinámica de equilibrio. EqM descarta las dinámicas condicionadas en el tiempo y fuera de equilibrio presentes en los modelos generativos tradicionales basados en difusión y flujo, y en su lugar aprende el gradiente de equilibrio de un paisaje de energía implícito. A través de este enfoque, podemos adoptar un proceso de muestreo basado en optimización durante la inferencia, donde las muestras se obtienen mediante descenso de gradiente en el paisaje aprendido con tamaños de paso ajustables, optimizadores adaptativos y cómputo adaptable. Empíricamente, EqM supera el rendimiento de generación de los modelos de difusión/flujo, logrando un FID de 1.90 en ImageNet 256×256. Además, EqM está teóricamente justificado para aprender y muestrear a partir de la variedad de datos. Más allá de la generación, EqM es un marco flexible que maneja de manera natural tareas como la eliminación de ruido en imágenes parcialmente ruidosas, la detección de datos fuera de distribución (OOD) y la composición de imágenes. Al reemplazar las velocidades condicionadas en el tiempo con un paisaje de equilibrio unificado, EqM ofrece un puente más estrecho entre los modelos de flujo y los basados en energía, así como una ruta simple hacia la inferencia impulsada por optimización.
English
We introduce Equilibrium Matching (EqM), a generative modeling framework
built from an equilibrium dynamics perspective. EqM discards the
non-equilibrium, time-conditional dynamics in traditional diffusion and
flow-based generative models and instead learns the equilibrium gradient of an
implicit energy landscape. Through this approach, we can adopt an
optimization-based sampling process at inference time, where samples are
obtained by gradient descent on the learned landscape with adjustable step
sizes, adaptive optimizers, and adaptive compute. EqM surpasses the generation
performance of diffusion/flow models empirically, achieving an FID of 1.90 on
ImageNet 256times256. EqM is also theoretically justified to learn and
sample from the data manifold. Beyond generation, EqM is a flexible framework
that naturally handles tasks including partially noised image denoising, OOD
detection, and image composition. By replacing time-conditional velocities with
a unified equilibrium landscape, EqM offers a tighter bridge between flow and
energy-based models and a simple route to optimization-driven inference.