拡散モデルの原理
The Principles of Diffusion Models
October 24, 2025
著者: Chieh-Hsin Lai, Yang Song, Dongjun Kim, Yuki Mitsufuji, Stefano Ermon
cs.AI
要旨
本稿は、拡散モデルの発展を導いてきた中核的原理を提示し、その起源を辿りながら、多様な定式化が共通の数学的アイデアから如何に生じるかを示す。拡散モデリングはまず、データをノイズへと段階的に劣化させる順過程を定義することから始まる。これにより、データ分布が単純な事前分布へと、連続的な中間分布を介して結び付けられる。目標は、ノイズをデータへと変換し、同じ中間分布を回復する逆過程を学習することである。我々は三つの相補的な視点を説明する。変分自己符号化器に着想を得た変分的視点は、拡散をノイズを段階的に除去する学習と見做す。エネルギー基底モデルに根差すスコア基底視点は、変化するデータ分布の勾配を学習し、サンプルをより確からしい領域へと導く方法を示す。正規化フローに関連するフロー基底視点は、生成を、学習された速度場の下でノイズからデータへサンプルを移動させる滑らかな経路を辿るものと扱う。これらの視点は共通の基盤を有する:時間依存の速度場であり、そのフローが単純な事前分布をデータへと輸送する。サンプリングはその後、ノイズを連続的な軌道に沿ってデータへと変化させる微分方程式を解くことに帰着する。この基礎の上に、本稿は制御可能な生成のためのガイダンス、効率的な数値解法、および任意の時間間の直接写像を学習する拡散動機付けフローマップモデルについて論じる。基本的な深層学習の知識を有する読者に対して、拡散モデルの概念的かつ数学的に根拠ある理解を提供する。
English
This monograph presents the core principles that have guided the development
of diffusion models, tracing their origins and showing how diverse formulations
arise from shared mathematical ideas. Diffusion modeling starts by defining a
forward process that gradually corrupts data into noise, linking the data
distribution to a simple prior through a continuum of intermediate
distributions. The goal is to learn a reverse process that transforms noise
back into data while recovering the same intermediates. We describe three
complementary views. The variational view, inspired by variational
autoencoders, sees diffusion as learning to remove noise step by step. The
score-based view, rooted in energy-based modeling, learns the gradient of the
evolving data distribution, indicating how to nudge samples toward more likely
regions. The flow-based view, related to normalizing flows, treats generation
as following a smooth path that moves samples from noise to data under a
learned velocity field. These perspectives share a common backbone: a
time-dependent velocity field whose flow transports a simple prior to the data.
Sampling then amounts to solving a differential equation that evolves noise
into data along a continuous trajectory. On this foundation, the monograph
discusses guidance for controllable generation, efficient numerical solvers,
and diffusion-motivated flow-map models that learn direct mappings between
arbitrary times. It provides a conceptual and mathematically grounded
understanding of diffusion models for readers with basic deep-learning
knowledge.