Согласование распределений в непрерывном времени для дистилляции диффузии за небольшое число шагов

Аннотация

Поэтапная дистилляция стала ведущей методикой ускорения диффузионных моделей, среди которых Distribution Matching Distillation (DMD) и дистилляция консистентности представляют две основные парадигмы. В то время как методы консистентности обеспечивают самосогласованность вдоль всей траектории PF-ODE для направления её к многообразию чистых данных, классический DMD опирается на разреженное обучение в нескольких предопределённых дискретных временных шагах. Эта ограниченная дискретно-временная формулировка и модо-ориентированная природа обратной дивергенции Кульбака-Лейблера склонны проявлять визуальные артефакты и излишне сглаженные результаты, часто требуя сложных вспомогательных модулей — таких как GAN или модели вознаграждения — для восстановления визуальной точности. В данной работе мы представляем Continuous-Time Distribution Matching (CDM), впервые перенося框架 DMD с дискретной привязки на непрерывную оптимизацию. CDM достигает этого за счёт двух непрерывно-временных решений. Во-первых, мы заменяем фиксированное дискретное расписание динамическим непрерывным расписанием случайной длины, чтобы согласование распределений обеспечивалось в произвольных точках вдоль траекторий выборки, а не только в нескольких фиксированных якорях. Во-вторых, мы предлагаем цель непрерывно-временного выравнивания, которая выполняет активное согласование вне траектории на латентных переменных, экстраполированных через поле скорости студенческой модели, улучшая обобщающую способность и сохраняя тонкие визуальные детали. Обширные эксперименты на различных архитектурах, включая SD3-Medium и Longcat-Image, демонстрируют, что CDM обеспечивает высококонкурентную визуальную точность для многошаговой генерации изображений без reliance на сложные вспомогательные цели. Код доступен по адресу https://github.com/byliutao/cdm.

English

Step distillation has become a leading technique for accelerating diffusion models, among which Distribution Matching Distillation (DMD) and Consistency Distillation are two representative paradigms. While consistency methods enforce self-consistency along the full PF-ODE trajectory to steer it toward the clean data manifold, vanilla DMD relies on sparse supervision at a few predefined discrete timesteps. This restricted discrete-time formulation and mode-seeking nature of the reverse KL divergence tends to exhibit visual artifacts and over-smoothed outputs, often necessitating complex auxiliary modules -- such as GANs or reward models -- to restore visual fidelity. In this work, we introduce Continuous-Time Distribution Matching (CDM), migrating the DMD framework from discrete anchoring to continuous optimization for the first time. CDM achieves this through two continuous-time designs. First, we replace the fixed discrete schedule with a dynamic continuous schedule of random length, so that distribution matching is enforced at arbitrary points along sampling trajectories rather than only at a few fixed anchors. Second, we propose a continuous-time alignment objective that performs active off-trajectory matching on latents extrapolated via the student's velocity field, improving generalization and preserving fine visual details. Extensive experiments on different architectures, including SD3-Medium and Longcat-Image, demonstrate that CDM provides highly competitive visual fidelity for few-step image generation without relying on complex auxiliary objectives. Code is available at https://github.com/byliutao/cdm.

Согласование распределений в непрерывном времени для дистилляции диффузии за небольшое число шагов

Continuous-Time Distribution Matching for Few-Step Diffusion Distillation

Аннотация

Support