Переосмысление модели диффузии с точки зрения уравнения Ланжевена

Аннотация

Модели диффузии часто представляются с различных точек зрения, таких как вариационные автокодировщики (VAE), согласование оценок (score matching) или согласование потоков (flow matching), сопровождаясь сложным и технически насыщенным математическим аппаратом, который может быть трудным для понимания начинающими. Классический вопрос заключается в следующем: как обратный процесс инвертирует прямой процесс для генерации данных из чистого шума? В данной статье систематически излагается модель диффузии с новой точки зрения Ланжевена, предлагая более простое, ясное и интуитивно понятное объяснение. Мы также рассматриваем следующие вопросы: как модели диффузии на основе ODE и SDE могут быть унифицированы в единой框架? Почему модели диффузии теоретически превосходят обычные VAE? Почему согласование потоков не является принципиально более простым, чем удаление шума или согласование оценок, а эквивалентно им при максимизации правдоподобия? Мы демонстрируем, что подход Ланжевена дает четкие и прямые ответы на эти вопросы, объединяя существующие интерпретации моделей диффузии, показывая, как различные формулировки могут быть преобразованы друг в друга в общей框架, и предлагая педагогическую ценность как для изучающих тему, так и для опытных исследователей, стремящихся к более глубокой интуиции.

English

Diffusion models are often introduced from multiple perspectives, such as VAEs, score matching, or flow matching, accompanied by dense and technically demanding mathematics that can be difficult for beginners to grasp. One classic question is: how does the reverse process invert the forward process to generate data from pure noise? This article systematically organizes the diffusion model from a fresh Langevin perspective, offering a simpler, clearer, and more intuitive answer. We also address the following questions: how can ODE-based and SDE-based diffusion models be unified under a single framework? Why are diffusion models theoretically superior to ordinary VAEs? Why is flow matching not fundamentally simpler than denoising or score matching, but equivalent under maximum-likelihood? We demonstrate that the Langevin perspective offers clear and straightforward answers to these questions, bridging existing interpretations of diffusion models, showing how different formulations can be converted into one another within a common framework, and offering pedagogical value for both learners and experienced researchers seeking deeper intuition.

Переосмысление модели диффузии с точки зрения уравнения Ланжевена

Rethinking the Diffusion Model from a Langevin Perspective

Аннотация

Support