ChatPaper.aiChatPaper

I principi dei modelli di diffusione

The Principles of Diffusion Models

October 24, 2025
Autori: Chieh-Hsin Lai, Yang Song, Dongjun Kim, Yuki Mitsufuji, Stefano Ermon
cs.AI

Abstract

Questo monografo presenta i principi fondamentali che hanno guidato lo sviluppo dei modelli di diffusione, ripercorrendone le origini e mostrando come formulazioni diverse scaturiscano da idee matematiche condivise. La modellazione di diffusione inizia definendo un processo diretto che corrompe gradualmente i dati in rumore, collegando la distribuzione dei dati a un prior semplice attraverso un continuum di distribuzioni intermedie. L'obiettivo è apprendere un processo inverso che trasformi il rumore nuovamente in dati, ricostruendo le stesse distribuzioni intermedie. Descriviamo tre prospettive complementari. La prospettiva variazionale, ispirata agli autoencoder variazionali, interpreta la diffusione come l'apprendimento della rimozione del rumore passo dopo passo. La prospettiva basata sul punteggio (score-based), radicata nella modellazione basata sull'energia, apprende il gradiente della distribuzione dati in evoluzione, indicando come spostare i campioni verso regioni più probabili. La prospettiva basata sul flusso (flow-based), correlata ai flussi normalizzanti (normalizing flows), tratta la generazione come l'atto di seguire un percorso regolare che muove i campioni dal rumore ai dati sotto un campo di velocità appreso. Queste prospettive condividono una struttura comune: un campo di velocità dipendente dal tempo il cui flusso trasporta un prior semplice verso i dati. Il campionamento equivale quindi a risolvere un'equazione differenziale che evolve il rumore in dati lungo una traiettoria continua. Su queste fondamenta, il monografo discute tecniche di guida (guidance) per la generazione controllabile, risolutori numerici efficienti e modelli basati sulla mappa di flusso (flow-map) ispirati alla diffusione che apprendono mappature dirette tra tempi arbitrari. Offre una comprensione concettuale e matematicamente fondata dei modelli di diffusione per lettori con una conoscenza di base del deep learning.
English
This monograph presents the core principles that have guided the development of diffusion models, tracing their origins and showing how diverse formulations arise from shared mathematical ideas. Diffusion modeling starts by defining a forward process that gradually corrupts data into noise, linking the data distribution to a simple prior through a continuum of intermediate distributions. The goal is to learn a reverse process that transforms noise back into data while recovering the same intermediates. We describe three complementary views. The variational view, inspired by variational autoencoders, sees diffusion as learning to remove noise step by step. The score-based view, rooted in energy-based modeling, learns the gradient of the evolving data distribution, indicating how to nudge samples toward more likely regions. The flow-based view, related to normalizing flows, treats generation as following a smooth path that moves samples from noise to data under a learned velocity field. These perspectives share a common backbone: a time-dependent velocity field whose flow transports a simple prior to the data. Sampling then amounts to solving a differential equation that evolves noise into data along a continuous trajectory. On this foundation, the monograph discusses guidance for controllable generation, efficient numerical solvers, and diffusion-motivated flow-map models that learn direct mappings between arbitrary times. It provides a conceptual and mathematically grounded understanding of diffusion models for readers with basic deep-learning knowledge.
PDF583December 2, 2025