Принципы диффузионных моделей
The Principles of Diffusion Models
October 24, 2025
Авторы: Chieh-Hsin Lai, Yang Song, Dongjun Kim, Yuki Mitsufuji, Stefano Ermon
cs.AI
Аннотация
В данной монографии изложены фундаментальные принципы, лежащие в основе разработки диффузионных моделей, прослежены их истоки и показано, как различные формулировки возникают из общих математических идей. Диффузионное моделирование начинается с определения прямого процесса, который постепенно преобразует данные в шум, связывая распределение данных с простым априорным распределением через континуум промежуточных распределений. Цель состоит в том, чтобы обучить обратный процесс, который преобразует шум обратно в данные, восстанавливая те же промежуточные состояния. Мы описываем три взаимодополняющих подхода. Вариационный подход, вдохновленный вариационными автоэнкодерами, рассматривает диффузию как обучение поэтапному удалению шума. Score-ориентированный подход, основанный на энергетическом моделировании, изучает градиент эволюционирующего распределения данных, указывая направление смещения выборок в сторону более вероятных областей. Подход на основе потоков, связанный с нормализующими потоками, трактует генерацию как следование по гладкой траектории, перемещающей выборки из шума в данные под воздействием обученного поля скоростей. Эти перспективы объединяет общая основа: зависящее от времени поле скоростей, поток которого трансформирует простое априорное распределение в распределение данных. Выборка тогда сводится к решению дифференциального уравнения, которое преобразует шум в данные вдоль непрерывной траектории. На этой основе монография рассматривает методы управления для контролируемой генерации, эффективные численные решатели и мотивированные диффузией модели потоковых отображений, которые изучают прямые соответствия между произвольными моментами времени. Работа дает концептуальное и математически обоснованное понимание диффузионных моделей для читателей с базовыми знаниями в области глубокого обучения.
English
This monograph presents the core principles that have guided the development
of diffusion models, tracing their origins and showing how diverse formulations
arise from shared mathematical ideas. Diffusion modeling starts by defining a
forward process that gradually corrupts data into noise, linking the data
distribution to a simple prior through a continuum of intermediate
distributions. The goal is to learn a reverse process that transforms noise
back into data while recovering the same intermediates. We describe three
complementary views. The variational view, inspired by variational
autoencoders, sees diffusion as learning to remove noise step by step. The
score-based view, rooted in energy-based modeling, learns the gradient of the
evolving data distribution, indicating how to nudge samples toward more likely
regions. The flow-based view, related to normalizing flows, treats generation
as following a smooth path that moves samples from noise to data under a
learned velocity field. These perspectives share a common backbone: a
time-dependent velocity field whose flow transports a simple prior to the data.
Sampling then amounts to solving a differential equation that evolves noise
into data along a continuous trajectory. On this foundation, the monograph
discusses guidance for controllable generation, efficient numerical solvers,
and diffusion-motivated flow-map models that learn direct mappings between
arbitrary times. It provides a conceptual and mathematically grounded
understanding of diffusion models for readers with basic deep-learning
knowledge.