WaDi: Векторно-ориентированное дистилляционное обучение для одноэтапного синтеза изображений

Аннотация

Несмотря на впечатляющие результаты диффузионных моделей, таких как Stable Diffusion (SD), в генерации изображений, их медленный вывод ограничивает практическое применение. Современные работы ускоряют вывод путем дистилляции многошаговой диффузии в одношаговые генераторы. Чтобы лучше понять механизм дистилляции, мы анализируем изменения весов U-Net/DiT между одношаговыми студенческими моделями и их многошаговыми учительскими аналогами. Наш анализ показывает, что изменения в направлении весов значительно превосходят изменения в их норме, что указывает на направление как ключевой фактор в процессе дистилляции. Руководствуясь этим наблюдением, мы предлагаем Low-rank Rotation of weight Direction (LoRaD) — параметрически эффективный адаптер, разработанный специально для одношаговой дистилляции диффузии. LoRaD предназначен для моделирования этих структурированных изменений направления с помощью обучаемых матриц вращения низкого ранга. Мы дополнительно интегрируем LoRaD в Variational Score Distillation (VSD), получая Weight Direction-aware Distillation (WaDi) — новую框架 одношаговой дистилляции. WaDi достигает наилучших показателей FID на COCO 2014 и COCO 2017, используя всего около 10% обучаемых параметров U-Net/DiT. Более того, дистиллированная одношаговая модель демонстрирует высокую универсальность и масштабируемость, успешно обобщаясь на различные downstream-задачи, такие как управляемая генерация, инверсия отношений и синтез изображений высокого разрешения.

English

Despite the impressive performance of diffusion models such as Stable Diffusion (SD) in image generation, their slow inference limits practical deployment. Recent works accelerate inference by distilling multi-step diffusion into one-step generators. To better understand the distillation mechanism, we analyze U-Net/DiT weight changes between one-step students and their multi-step teacher counterparts. Our analysis reveals that changes in weight direction significantly exceed those in weight norm, highlighting it as the key factor during distillation. Motivated by this insight, we propose the Low-rank Rotation of weight Direction (LoRaD), a parameter-efficient adapter tailored to one-step diffusion distillation. LoRaD is designed to model these structured directional changes using learnable low-rank rotation matrices. We further integrate LoRaD into Variational Score Distillation (VSD), resulting in Weight Direction-aware Distillation (WaDi)-a novel one-step distillation framework. WaDi achieves state-of-the-art FID scores on COCO 2014 and COCO 2017 while using only approximately 10% of the trainable parameters of the U-Net/DiT. Furthermore, the distilled one-step model demonstrates strong versatility and scalability, generalizing well to various downstream tasks such as controllable generation, relation inversion, and high-resolution synthesis.

WaDi: Векторно-ориентированное дистилляционное обучение для одноэтапного синтеза изображений

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

Аннотация

Support