Os Princípios dos Modelos de Difusão

Resumo

Esta monografia apresenta os princípios fundamentais que orientaram o desenvolvimento dos modelos de difusão, traçando suas origens e demonstrando como formulações diversas emergem de ideias matemáticas compartilhadas. A modelagem por difusão inicia-se pela definição de um processo direto que corrompe gradualmente os dados em ruído, conectando a distribuição dos dados a um prior simples por meio de um contínuo de distribuições intermediárias. O objetivo é aprender um processo reverso que transforma o ruído de volta em dados, recuperando os mesmos intermediários. Descrevemos três perspectivas complementares. A visão variacional, inspirada nos autoencoders variacionais, entende a difusão como a aprendizagem da remoção de ruído passo a passo. A visão baseada em escore, com raízes na modelagem baseada em energia, aprende o gradiente da distribuição de dados em evolução, indicando como direcionar amostras para regiões mais prováveis. A visão baseada em fluxo, relacionada aos fluxos normalizantes, trata a geração como o seguimento de um caminho suave que move amostras do ruído para os dados sob um campo de velocidade aprendido. Essas perspectivas compartilham uma estrutura comum: um campo de velocidade dependente do tempo cujo fluxo transporta um prior simples para os dados. A amostragem, então, equivale a resolver uma equação diferencial que evolui o ruído em dados ao longo de uma trajetória contínua. Com base nisso, a monografia discute orientação para geração controlável, solucionadores numéricos eficientes e modelos de mapa de fluxo motivados por difusão que aprendem mapeamentos diretos entre tempos arbitrários. Ela fornece uma compreensão conceitual e matematicamente fundamentada dos modelos de difusão para leitores com conhecimentos básicos de aprendizado profundo.

English

This monograph presents the core principles that have guided the development of diffusion models, tracing their origins and showing how diverse formulations arise from shared mathematical ideas. Diffusion modeling starts by defining a forward process that gradually corrupts data into noise, linking the data distribution to a simple prior through a continuum of intermediate distributions. The goal is to learn a reverse process that transforms noise back into data while recovering the same intermediates. We describe three complementary views. The variational view, inspired by variational autoencoders, sees diffusion as learning to remove noise step by step. The score-based view, rooted in energy-based modeling, learns the gradient of the evolving data distribution, indicating how to nudge samples toward more likely regions. The flow-based view, related to normalizing flows, treats generation as following a smooth path that moves samples from noise to data under a learned velocity field. These perspectives share a common backbone: a time-dependent velocity field whose flow transports a simple prior to the data. Sampling then amounts to solving a differential equation that evolves noise into data along a continuous trajectory. On this foundation, the monograph discusses guidance for controllable generation, efficient numerical solvers, and diffusion-motivated flow-map models that learn direct mappings between arbitrary times. It provides a conceptual and mathematically grounded understanding of diffusion models for readers with basic deep-learning knowledge.

Os Princípios dos Modelos de Difusão

The Principles of Diffusion Models

Resumo

Support