ChatPaper.aiChatPaper

Равновесное сопоставление: генеративное моделирование с неявными энергетическими моделями

Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models

October 2, 2025
Авторы: Runqian Wang, Yilun Du
cs.AI

Аннотация

Мы представляем Equilibrium Matching (EqM), фреймворк для генеративного моделирования, основанный на динамике равновесия. EqM отказывается от нестационарной, зависящей от времени динамики, используемой в традиционных диффузионных и потоковых генеративных моделях, и вместо этого изучает равновесный градиент неявного энергетического ландшафта. Благодаря такому подходу, на этапе вывода можно использовать процесс выборки, основанный на оптимизации, где образцы получаются путем градиентного спуска по изученному ландшафту с регулируемым размером шага, адаптивными оптимизаторами и адаптивными вычислениями. EqM превосходит генеративные характеристики диффузионных/потоковых моделей на практике, достигая FID 1.90 на ImageNet 256×256. EqM также теоретически обоснован для изучения и выборки из многообразия данных. Помимо генерации, EqM является гибким фреймворком, который естественным образом справляется с задачами, включая частичное шумоподавление изображений, обнаружение выбросов (OOD) и композицию изображений. Заменяя зависящие от времени скорости единым равновесным ландшафтом, EqM предлагает более тесную связь между потоковыми и энергетическими моделями, а также простой путь к оптимизационно-ориентированному выводу.
English
We introduce Equilibrium Matching (EqM), a generative modeling framework built from an equilibrium dynamics perspective. EqM discards the non-equilibrium, time-conditional dynamics in traditional diffusion and flow-based generative models and instead learns the equilibrium gradient of an implicit energy landscape. Through this approach, we can adopt an optimization-based sampling process at inference time, where samples are obtained by gradient descent on the learned landscape with adjustable step sizes, adaptive optimizers, and adaptive compute. EqM surpasses the generation performance of diffusion/flow models empirically, achieving an FID of 1.90 on ImageNet 256times256. EqM is also theoretically justified to learn and sample from the data manifold. Beyond generation, EqM is a flexible framework that naturally handles tasks including partially noised image denoising, OOD detection, and image composition. By replacing time-conditional velocities with a unified equilibrium landscape, EqM offers a tighter bridge between flow and energy-based models and a simple route to optimization-driven inference.
PDF52October 8, 2025