ChatPaper.aiChatPaper

SNOOPI: Super opgeladen éénstaps diffusie destillatie met juiste begeleiding

SNOOPI: Supercharged One-step Diffusion Distillation with Proper Guidance

December 3, 2024
Auteurs: Viet Nguyen, Anh Aengus Nguyen, Trung Dao, Khoi Nguyen, Cuong Pham, Toan Tran, Anh Tran
cs.AI

Samenvatting

Recente benaderingen hebben veelbelovende resultaten opgeleverd bij het destilleren van meerstaps tekst-naar-afbeelding diffusiemodellen tot éénstapsmodellen. De state-of-the-art efficiënte destillatietechniek, d.w.z. SwiftBrushv2 (SBv2), overtreft zelfs de prestaties van het docentmodel met beperkte middelen. Onze studie onthult echter de instabiliteit ervan bij het omgaan met verschillende diffusiemodelruggengraat vanwege het gebruik van een vaste begeleidingsschaal binnen de Variational Score Destillatie (VSD) verlies. Een andere zwakte van de bestaande éénstaps diffusiemodellen is het ontbreken van ondersteuning voor negatieve promptbegeleiding, wat cruciaal is bij praktische beeldgeneratie. Dit artikel presenteert SNOOPI, een nieuw raamwerk dat is ontworpen om deze beperkingen aan te pakken door de begeleiding in éénstaps diffusiemodellen te verbeteren tijdens zowel training als inferentie. Ten eerste verbeteren we effectief de trainingsstabiliteit door Proper Guidance-SwiftBrush (PG-SB), dat een benadering zonder willekeurige schaalclassificatievrije begeleiding gebruikt. Door de begeleidingsschaal van zowel docentmodellen te variëren, verbreden we hun uitvoerdistributies, resulterend in een robuuster VSD-verlies dat SB in staat stelt effectief te presteren over diverse ruggengraten, terwijl concurrerende prestaties behouden blijven. Ten tweede stellen we een trainingsvrije methode voor genaamd Negative-Away Steer Attention (NASA), die negatieve prompts integreert in éénstaps diffusiemodellen via kruislingse aandacht om ongewenste elementen in gegenereerde afbeeldingen te onderdrukken. Onze experimentele resultaten tonen aan dat onze voorgestelde methoden de basislijnmodellen aanzienlijk verbeteren over verschillende metrieken. Opmerkelijk is dat we een HPSv2-score van 31.08 behalen, waarmee we een nieuwe state-of-the-art benchmark voor éénstaps diffusiemodellen vaststellen.
English
Recent approaches have yielded promising results in distilling multi-step text-to-image diffusion models into one-step ones. The state-of-the-art efficient distillation technique, i.e., SwiftBrushv2 (SBv2), even surpasses the teacher model's performance with limited resources. However, our study reveals its instability when handling different diffusion model backbones due to using a fixed guidance scale within the Variational Score Distillation (VSD) loss. Another weakness of the existing one-step diffusion models is the missing support for negative prompt guidance, which is crucial in practical image generation. This paper presents SNOOPI, a novel framework designed to address these limitations by enhancing the guidance in one-step diffusion models during both training and inference. First, we effectively enhance training stability through Proper Guidance-SwiftBrush (PG-SB), which employs a random-scale classifier-free guidance approach. By varying the guidance scale of both teacher models, we broaden their output distributions, resulting in a more robust VSD loss that enables SB to perform effectively across diverse backbones while maintaining competitive performance. Second, we propose a training-free method called Negative-Away Steer Attention (NASA), which integrates negative prompts into one-step diffusion models via cross-attention to suppress undesired elements in generated images. Our experimental results show that our proposed methods significantly improve baseline models across various metrics. Remarkably, we achieve an HPSv2 score of 31.08, setting a new state-of-the-art benchmark for one-step diffusion models.

Summary

AI-Generated Summary

PDF1143December 5, 2024