Os Princípios dos Modelos de Difusão
The Principles of Diffusion Models
October 24, 2025
Autores: Chieh-Hsin Lai, Yang Song, Dongjun Kim, Yuki Mitsufuji, Stefano Ermon
cs.AI
Resumo
Esta monografia apresenta os princípios fundamentais que orientaram o desenvolvimento dos modelos de difusão, traçando suas origens e demonstrando como formulações diversas emergem de ideias matemáticas compartilhadas. A modelagem por difusão inicia-se pela definição de um processo direto que corrompe gradualmente os dados em ruído, conectando a distribuição dos dados a um prior simples por meio de um contínuo de distribuições intermediárias. O objetivo é aprender um processo reverso que transforma o ruído de volta em dados, recuperando os mesmos intermediários. Descrevemos três perspectivas complementares. A visão variacional, inspirada nos autoencoders variacionais, entende a difusão como a aprendizagem da remoção de ruído passo a passo. A visão baseada em escore, com raízes na modelagem baseada em energia, aprende o gradiente da distribuição de dados em evolução, indicando como direcionar amostras para regiões mais prováveis. A visão baseada em fluxo, relacionada aos fluxos normalizantes, trata a geração como o seguimento de um caminho suave que move amostras do ruído para os dados sob um campo de velocidade aprendido. Essas perspectivas compartilham uma estrutura comum: um campo de velocidade dependente do tempo cujo fluxo transporta um prior simples para os dados. A amostragem, então, equivale a resolver uma equação diferencial que evolui o ruído em dados ao longo de uma trajetória contínua. Com base nisso, a monografia discute orientação para geração controlável, solucionadores numéricos eficientes e modelos de mapa de fluxo motivados por difusão que aprendem mapeamentos diretos entre tempos arbitrários. Ela fornece uma compreensão conceitual e matematicamente fundamentada dos modelos de difusão para leitores com conhecimentos básicos de aprendizado profundo.
English
This monograph presents the core principles that have guided the development
of diffusion models, tracing their origins and showing how diverse formulations
arise from shared mathematical ideas. Diffusion modeling starts by defining a
forward process that gradually corrupts data into noise, linking the data
distribution to a simple prior through a continuum of intermediate
distributions. The goal is to learn a reverse process that transforms noise
back into data while recovering the same intermediates. We describe three
complementary views. The variational view, inspired by variational
autoencoders, sees diffusion as learning to remove noise step by step. The
score-based view, rooted in energy-based modeling, learns the gradient of the
evolving data distribution, indicating how to nudge samples toward more likely
regions. The flow-based view, related to normalizing flows, treats generation
as following a smooth path that moves samples from noise to data under a
learned velocity field. These perspectives share a common backbone: a
time-dependent velocity field whose flow transports a simple prior to the data.
Sampling then amounts to solving a differential equation that evolves noise
into data along a continuous trajectory. On this foundation, the monograph
discusses guidance for controllable generation, efficient numerical solvers,
and diffusion-motivated flow-map models that learn direct mappings between
arbitrary times. It provides a conceptual and mathematically grounded
understanding of diffusion models for readers with basic deep-learning
knowledge.