Ripensare il Modello di Diffusione da una Prospettiva di Langevin

Abstract

I modelli di diffusione vengono spesso introdotti da molteplici prospettive, come le VAE, l'accoppiamento dei punteggi (score matching) o l'accoppiamento dei flussi (flow matching), accompagnati da una matematica densa e tecnicamente impegnativa che può risultare di difficile comprensione per i principianti. Una domanda classica è: come fa il processo inverso a invertire il processo diretto per generare dati da puro rumore? Questo articolo organizza sistematicamente il modello di diffusione da una nuova prospettiva di Langevin, offrendo una risposta più semplice, chiara e intuitiva. Affrontiamo anche le seguenti questioni: come possono i modelli di diffusione basati su ODE e SDE essere unificati in un unico quadro teorico? Perché i modelli di diffusione sono teoricamente superiori alle VAE ordinarie? Perché l'accoppiamento dei flussi non è fondamentalmente più semplice della rimozione del rumore (denoising) o dell'accoppiamento dei punteggi, ma equivalente sotto massima verosimiglianza? Dimostriamo che la prospettiva di Langevin offre risposte chiare e dirette a queste domande, colmando le interpretazioni esistenti dei modelli di diffusione, mostrando come diverse formulazioni possano essere convertite l'una nell'altra all'interno di un quadro comune, e offrendo un valore pedagogico sia per gli studenti che per i ricercatori esperti che cercano un'intuizione più profonda.

English

Diffusion models are often introduced from multiple perspectives, such as VAEs, score matching, or flow matching, accompanied by dense and technically demanding mathematics that can be difficult for beginners to grasp. One classic question is: how does the reverse process invert the forward process to generate data from pure noise? This article systematically organizes the diffusion model from a fresh Langevin perspective, offering a simpler, clearer, and more intuitive answer. We also address the following questions: how can ODE-based and SDE-based diffusion models be unified under a single framework? Why are diffusion models theoretically superior to ordinary VAEs? Why is flow matching not fundamentally simpler than denoising or score matching, but equivalent under maximum-likelihood? We demonstrate that the Langevin perspective offers clear and straightforward answers to these questions, bridging existing interpretations of diffusion models, showing how different formulations can be converted into one another within a common framework, and offering pedagogical value for both learners and experienced researchers seeking deeper intuition.

Ripensare il Modello di Diffusione da una Prospettiva di Langevin

Rethinking the Diffusion Model from a Langevin Perspective

Abstract

Support