Repensando o Modelo de Difusão sob uma Perspectiva de Langevin

Resumo

Os modelos de difusão são frequentemente introduzidos a partir de múltiplas perspectivas, como VAEs, correspondência de *score* ou correspondência de fluxo, acompanhados por uma matemática densa e tecnicamente exigente que pode ser de difícil compreensão para iniciantes. Uma questão clássica é: como o processo reverso inverte o processo direto para gerar dados a partir de ruído puro? Este artigo organiza sistematicamente o modelo de difusão a partir de uma nova perspectiva de Langevin, oferecendo uma resposta mais simples, clara e intuitiva. Também abordamos as seguintes questões: como os modelos de difusão baseados em EDOs e EDEs podem ser unificados em um único *framework*? Por que os modelos de difusão são teoricamente superiores aos VAEs comuns? Por que a correspondência de fluxo não é fundamentalmente mais simples que a remoção de ruído ou correspondência de *score*, mas equivalente sob máxima verossimilhança? Demonstramos que a perspectiva de Langevin oferece respostas claras e diretas a essas questões, conectando as interpretações existentes dos modelos de difusão, mostrando como diferentes formulações podem ser convertidas umas nas outras dentro de um *framework* comum, e oferecendo valor pedagógico tanto para aprendizes quanto para pesquisadores experientes que buscam uma intuição mais profunda.

English

Diffusion models are often introduced from multiple perspectives, such as VAEs, score matching, or flow matching, accompanied by dense and technically demanding mathematics that can be difficult for beginners to grasp. One classic question is: how does the reverse process invert the forward process to generate data from pure noise? This article systematically organizes the diffusion model from a fresh Langevin perspective, offering a simpler, clearer, and more intuitive answer. We also address the following questions: how can ODE-based and SDE-based diffusion models be unified under a single framework? Why are diffusion models theoretically superior to ordinary VAEs? Why is flow matching not fundamentally simpler than denoising or score matching, but equivalent under maximum-likelihood? We demonstrate that the Langevin perspective offers clear and straightforward answers to these questions, bridging existing interpretations of diffusion models, showing how different formulations can be converted into one another within a common framework, and offering pedagogical value for both learners and experienced researchers seeking deeper intuition.

Repensando o Modelo de Difusão sob uma Perspectiva de Langevin

Rethinking the Diffusion Model from a Langevin Perspective

Resumo

Support