Die Prinzipien der Diffusionsmodelle
The Principles of Diffusion Models
October 24, 2025
papers.authors: Chieh-Hsin Lai, Yang Song, Dongjun Kim, Yuki Mitsufuji, Stefano Ermon
cs.AI
papers.abstract
Diese Monografie stellt die grundlegenden Prinzipien vor, die die Entwicklung von Diffusionsmodellen geleitet haben, verfolgt deren Ursprünge und zeigt, wie unterschiedliche Formulierungen aus gemeinsamen mathematischen Ideen entstehen. Die Diffusionsmodellierung beginnt mit der Definition eines Vorwärtsprozesses, der Daten schrittweise in Rauschen überführt und so die Datenverteilung über ein Kontinuum von Zwischenverteilungen mit einer einfachen A-priori-Verteilung verbindet. Das Ziel ist es, einen Rückwärtsprozess zu erlernen, der Rauschen zurück in Daten verwandelt und dabei dieselben Zwischenzustände rekonstruiert. Wir beschreiben drei komplementäre Betrachtungsweisen. Die variationelle Sicht, inspiriert von variationalen Autoencodern, versteht Diffusion als schrittweises Entfernen von Rauschen. Die score-basierte Sicht, verwurzelt im Energy-Based Modeling, erlernt den Gradienten der sich entwickelnden Datenverteilung, der anzeigt, wie Samples in Richtung wahrscheinlicherer Regionen verschoben werden können. Die flussbasierte Sicht, verwandt mit Normalizing Flows, behandelt die Generierung als das Verfolgen eines glatten Pfades, der Samples unter einem erlernten Geschwindigkeitsfeld von Rauschen zu Daten bewegt. Diese Perspektiven teilen ein gemeinsames Grundgerüst: ein zeitabhängiges Geschwindigkeitsfeld, dessen Fluss eine einfache A-priori-Verteilung zu den Daten transportiert. Das Sampling läuft dann darauf hinaus, eine Differentialgleichung zu lösen, die Rauschen entlang einer kontinuierlichen Trajektorie in Daten überführt. Auf dieser Grundlage diskutiert die Monografie Methoden zur Steuerung der Generierung, effiziente numerische Löser sowie durch Diffusion motivierte Flow-Map-Modelle, die direkte Abbildungen zwischen beliebigen Zeitpunkten erlernen. Sie bietet ein konzeptionelles und mathematisch fundiertes Verständnis von Diffusionsmodellen für Leser mit grundlegenden Kenntnissen im Deep Learning.
English
This monograph presents the core principles that have guided the development
of diffusion models, tracing their origins and showing how diverse formulations
arise from shared mathematical ideas. Diffusion modeling starts by defining a
forward process that gradually corrupts data into noise, linking the data
distribution to a simple prior through a continuum of intermediate
distributions. The goal is to learn a reverse process that transforms noise
back into data while recovering the same intermediates. We describe three
complementary views. The variational view, inspired by variational
autoencoders, sees diffusion as learning to remove noise step by step. The
score-based view, rooted in energy-based modeling, learns the gradient of the
evolving data distribution, indicating how to nudge samples toward more likely
regions. The flow-based view, related to normalizing flows, treats generation
as following a smooth path that moves samples from noise to data under a
learned velocity field. These perspectives share a common backbone: a
time-dependent velocity field whose flow transports a simple prior to the data.
Sampling then amounts to solving a differential equation that evolves noise
into data along a continuous trajectory. On this foundation, the monograph
discusses guidance for controllable generation, efficient numerical solvers,
and diffusion-motivated flow-map models that learn direct mappings between
arbitrary times. It provides a conceptual and mathematically grounded
understanding of diffusion models for readers with basic deep-learning
knowledge.