Replanteamiento del Modelo de Difusión desde una Perspectiva de Langevin

Resumen

Los modelos de difusión suelen presentarse desde múltiples perspectivas, como los VAE, la coincidencia de scores o la coincidencia de flujos, acompañados de matemáticas densas y técnicamente exigentes que pueden ser difíciles de comprender para los principiantes. Una pregunta clásica es: ¿cómo invierte el proceso inverso al proceso directo para generar datos a partir de ruido puro? Este artículo organiza sistemáticamente el modelo de difusión desde una nueva perspectiva de Langevin, ofreciendo una respuesta más sencilla, clara e intuitiva. También abordamos las siguientes cuestiones: ¿cómo pueden unificarse los modelos de difusión basados en EDO y EDE bajo un mismo marco? ¿Por qué los modelos de difusión son teóricamente superiores a los VAE ordinarios? ¿Por qué la coincidencia de flujos no es fundamentalmente más simple que la eliminación de ruido o la coincidencia de scores, sino equivalente bajo máxima verosimilitud? Demostramos que la perspectiva de Langevin ofrece respuestas claras y directas a estas preguntas, tendiendo puentes entre las interpretaciones existentes de los modelos de difusión, mostrando cómo diferentes formulaciones pueden convertirse entre sí dentro de un marco común, y ofreciendo valor pedagógico tanto para estudiantes como para investigadores experimentados que buscan una intuición más profunda.

English

Diffusion models are often introduced from multiple perspectives, such as VAEs, score matching, or flow matching, accompanied by dense and technically demanding mathematics that can be difficult for beginners to grasp. One classic question is: how does the reverse process invert the forward process to generate data from pure noise? This article systematically organizes the diffusion model from a fresh Langevin perspective, offering a simpler, clearer, and more intuitive answer. We also address the following questions: how can ODE-based and SDE-based diffusion models be unified under a single framework? Why are diffusion models theoretically superior to ordinary VAEs? Why is flow matching not fundamentally simpler than denoising or score matching, but equivalent under maximum-likelihood? We demonstrate that the Langevin perspective offers clear and straightforward answers to these questions, bridging existing interpretations of diffusion models, showing how different formulations can be converted into one another within a common framework, and offering pedagogical value for both learners and experienced researchers seeking deeper intuition.

Replanteamiento del Modelo de Difusión desde una Perspectiva de Langevin

Rethinking the Diffusion Model from a Langevin Perspective

Resumen

Support