Repenser le modèle de diffusion sous l'angle de Langevin

Résumé

Les modèles de diffusion sont souvent présentés sous de multiples angles, tels que les VAE, l'appariement des scores ou l'appariement des flux, accompagnés de mathématiques denses et exigeantes sur le plan technique qui peuvent être difficiles à saisir pour les débutants. Une question classique est : comment le processus inverse renverse-t-il le processus direct pour générer des données à partir d'un bruit pur ? Cet article organise systématiquement le modèle de diffusion sous une perspective nouvelle de Langevin, offrant une réponse plus simple, plus claire et plus intuitive. Nous abordons également les questions suivantes : comment les modèles de diffusion basés sur les EDO et les EDS peuvent-ils être unifiés dans un cadre unique ? Pourquoi les modèles de diffusion sont-ils théoriquement supérieurs aux VAE ordinaires ? Pourquoi l'appariement des flux n'est-il pas fondamentalement plus simple que le débruitage ou l'appariement des scores, mais équivalent sous maximum de vraisemblance ? Nous démontrons que la perspective de Langevin offre des réponses claires et directes à ces questions, établissant un pont entre les interprétations existantes des modèles de diffusion, montrant comment différentes formulations peuvent être converties les unes dans les autres au sein d'un cadre commun, et offrant une valeur pédagogique tant pour les apprenants que pour les chercheurs expérimentés cherchant une intuition plus profonde.

English

Diffusion models are often introduced from multiple perspectives, such as VAEs, score matching, or flow matching, accompanied by dense and technically demanding mathematics that can be difficult for beginners to grasp. One classic question is: how does the reverse process invert the forward process to generate data from pure noise? This article systematically organizes the diffusion model from a fresh Langevin perspective, offering a simpler, clearer, and more intuitive answer. We also address the following questions: how can ODE-based and SDE-based diffusion models be unified under a single framework? Why are diffusion models theoretically superior to ordinary VAEs? Why is flow matching not fundamentally simpler than denoising or score matching, but equivalent under maximum-likelihood? We demonstrate that the Langevin perspective offers clear and straightforward answers to these questions, bridging existing interpretations of diffusion models, showing how different formulations can be converted into one another within a common framework, and offering pedagogical value for both learners and experienced researchers seeking deeper intuition.

Repenser le modèle de diffusion sous l'angle de Langevin

Rethinking the Diffusion Model from a Langevin Perspective

Résumé

Support