ChatPaper.aiChatPaper

Weinig-staps diffusiemodellen leren door trajectverdelingsovereenstemming

Learning Few-Step Diffusion Models by Trajectory Distribution Matching

March 9, 2025
Auteurs: Yihong Luo, Tianyang Hu, Jiacheng Sun, Yujun Cai, Jing Tang
cs.AI

Samenvatting

Het versnellen van diffusiemodel sampling is cruciaal voor een efficiënte inzet van AIGC. Hoewel diffusiedistillatiemethoden – gebaseerd op distributie- en trajectmatching – het sampling kunnen reduceren tot slechts één stap, schieten ze tekort bij complexe taken zoals tekst-naar-beeldgeneratie. Generatie in enkele stappen biedt een betere balans tussen snelheid en kwaliteit, maar bestaande benaderingen kampen met een hardnekkige afweging: distributiematching mist flexibiliteit voor multi-step sampling, terwijl trajectmatching vaak suboptimale beeldkwaliteit oplevert. Om deze kloof te overbruggen, stellen we voor om diffusiemodellen in enkele stappen te leren via Trajectory Distribution Matching (TDM), een geïntegreerd distillatieparadigma dat de sterke punten van distributie- en trajectmatching combineert. Onze methode introduceert een data-vrij score-distillatiedoel, dat het traject van de student afstemt op dat van de leraar op distributieniveau. Verder ontwikkelen we een sampling-stappen-bewust doel dat leerdoelen ontkoppelt over verschillende stappen, waardoor meer aanpasbaar sampling mogelijk wordt. Deze benadering ondersteunt zowel deterministisch sampling voor superieure beeldkwaliteit als flexibele multi-step aanpassing, wat resulteert in state-of-the-art prestaties met opmerkelijke efficiëntie. Ons model, TDM, overtreft bestaande methoden op verschillende backbones, zoals SDXL en PixArt-alpha, en levert superieure kwaliteit met aanzienlijk gereduceerde trainingskosten. In het bijzonder destilleert onze methode PixArt-alpha tot een 4-staps generator die zijn leraar overtreft op basis van echte gebruikersvoorkeuren bij 1024 resolutie. Dit wordt bereikt met 500 iteraties en 2 A800 uren – slechts 0,01% van de trainingskosten van de leraar. Daarnaast kan onze voorgestelde TDM worden uitgebreid om tekst-naar-video diffusie te versnellen. Opmerkelijk is dat TDM zijn lerarmodel (CogVideoX-2B) kan overtreffen door slechts 4 NFE te gebruiken op VBench, waarbij de totale score verbetert van 80,91 naar 81,65. Projectpagina: https://tdm-t2x.github.io/
English
Accelerating diffusion model sampling is crucial for efficient AIGC deployment. While diffusion distillation methods -- based on distribution matching and trajectory matching -- reduce sampling to as few as one step, they fall short on complex tasks like text-to-image generation. Few-step generation offers a better balance between speed and quality, but existing approaches face a persistent trade-off: distribution matching lacks flexibility for multi-step sampling, while trajectory matching often yields suboptimal image quality. To bridge this gap, we propose learning few-step diffusion models by Trajectory Distribution Matching (TDM), a unified distillation paradigm that combines the strengths of distribution and trajectory matching. Our method introduces a data-free score distillation objective, aligning the student's trajectory with the teacher's at the distribution level. Further, we develop a sampling-steps-aware objective that decouples learning targets across different steps, enabling more adjustable sampling. This approach supports both deterministic sampling for superior image quality and flexible multi-step adaptation, achieving state-of-the-art performance with remarkable efficiency. Our model, TDM, outperforms existing methods on various backbones, such as SDXL and PixArt-alpha, delivering superior quality and significantly reduced training costs. In particular, our method distills PixArt-alpha into a 4-step generator that outperforms its teacher on real user preference at 1024 resolution. This is accomplished with 500 iterations and 2 A800 hours -- a mere 0.01% of the teacher's training cost. In addition, our proposed TDM can be extended to accelerate text-to-video diffusion. Notably, TDM can outperform its teacher model (CogVideoX-2B) by using only 4 NFE on VBench, improving the total score from 80.91 to 81.65. Project page: https://tdm-t2x.github.io/

Summary

AI-Generated Summary

PDF73March 17, 2025