ChatPaper.aiChatPaper

확산 모델의 원리

The Principles of Diffusion Models

October 24, 2025
저자: Chieh-Hsin Lai, Yang Song, Dongjun Kim, Yuki Mitsufuji, Stefano Ermon
cs.AI

초록

본 논문은 확산 모델의 발전을 이끈 핵심 원리를 제시하며, 그 기원을 추적하고 다양한 수학적 아이디어에서 비롯된 여러 형식화가 어떻게 등장했는지를 보여줍니다. 확산 모델링은 데이터를 점진적으로 잡음으로 훼손하는 순방향 과정을 정의함으로써 시작되며, 이는 연속적인 중간 분포들을 통해 데이터 분포를 단순한 사전 분포와 연결합니다. 목표는 동일한 중간 상태들을 복원하면서 잡음을 다시 데이터로 변환하는 역방향 과정을 학습하는 것입니다. 우리는 세 가지 상호 보완적인 관점을 설명합니다. 변분 오토인코더에서 영감을 받은 변분 관점은 확산을 단계별로 잡음을 제거하는 학습으로 봅니다. 에너지 기반 모델링에 뿌리를 둔 점수 기반 관점은 변화하는 데이터 분포의 기울기를 학습하여 표본을 더 높은 가능성 영역으로 이동시키는 방향을 제시합니다. 정규화 흐름과 관련된 흐름 기반 관점은 학습된 속도장 하에서 잡음에서 데이터로 표본을 이동시키는 매끄러운 경로를 따라가는 것을 생성으로 간주합니다. 이러한 관점들은 공통된 골격을 공유합니다: 바로 시간에 종속적인 속도장으로, 그 흐름이 단순한 사전 분포를 데이터로 운반합니다. 따라서 샘플링은 잡음을 데이터로 변화시키는 연속 궤적을 따라 미분 방정식을 푸는 것에 해당합니다. 이러한 기초 위에서, 본 논문은 제어 가능한 생성을 위한 guidance, 효율적인 수치 해법, 그리고 임의의 시간 간 직접 매핑을 학습하는 확산 기반 흐름 맵 모델에 대해 논의합니다. 이는 기본적인 딥러닝 지식을 가진 독자들에게 확산 모델에 대한 개념적이고 수학적으로 근거 있는 이해를 제공합니다.
English
This monograph presents the core principles that have guided the development of diffusion models, tracing their origins and showing how diverse formulations arise from shared mathematical ideas. Diffusion modeling starts by defining a forward process that gradually corrupts data into noise, linking the data distribution to a simple prior through a continuum of intermediate distributions. The goal is to learn a reverse process that transforms noise back into data while recovering the same intermediates. We describe three complementary views. The variational view, inspired by variational autoencoders, sees diffusion as learning to remove noise step by step. The score-based view, rooted in energy-based modeling, learns the gradient of the evolving data distribution, indicating how to nudge samples toward more likely regions. The flow-based view, related to normalizing flows, treats generation as following a smooth path that moves samples from noise to data under a learned velocity field. These perspectives share a common backbone: a time-dependent velocity field whose flow transports a simple prior to the data. Sampling then amounts to solving a differential equation that evolves noise into data along a continuous trajectory. On this foundation, the monograph discusses guidance for controllable generation, efficient numerical solvers, and diffusion-motivated flow-map models that learn direct mappings between arbitrary times. It provides a conceptual and mathematically grounded understanding of diffusion models for readers with basic deep-learning knowledge.
PDF583December 2, 2025