ChatPaper.aiChatPaper

LinFusion: 1 GPU, 1 Minute, 16K Bild

LinFusion: 1 GPU, 1 Minute, 16K Image

September 3, 2024
Autoren: Songhua Liu, Weihao Yu, Zhenxiong Tan, Xinchao Wang
cs.AI

Zusammenfassung

Moderne Diffusionsmodelle, insbesondere solche, die einen auf Transformer basierenden UNet zur Rauschunterdrückung verwenden, verlassen sich stark auf Self-Attention-Operationen, um komplexe räumliche Beziehungen zu verwalten und damit beeindruckende Generierungsleistungen zu erzielen. Allerdings steht dieses bestehende Paradigma vor erheblichen Herausforderungen bei der Generierung von hochauflösenden visuellen Inhalten aufgrund seiner quadratischen Zeit- und Speicherkomplexität in Bezug auf die Anzahl der räumlichen Token. Um diese Einschränkung zu überwinden, zielen wir in diesem Artikel auf einen neuartigen linearen Aufmerksamkeitsmechanismus als Alternative ab. Wir beginnen unsere Erkundung speziell von kürzlich eingeführten Modellen mit linearer Komplexität, z. B. Mamba, Mamba2 und Gated Linear Attention, und identifizieren zwei Schlüsselfunktionen - Aufmerksamkeitsnormalisierung und nicht-kausale Inferenz -, die die Leistung bei der Generierung hochauflösender visueller Inhalte verbessern. Basierend auf diesen Erkenntnissen stellen wir ein verallgemeinertes lineares Aufmerksamkeitsparadigma vor, das als niedrigrangige Approximation eines breiten Spektrums beliebter linearer Token-Mixer dient. Um die Trainingskosten zu senken und vortrainierte Modelle besser zu nutzen, initialisieren wir unsere Modelle und destillieren das Wissen aus dem vortrainierten StableDiffusion (SD). Wir stellen fest, dass das destillierte Modell, genannt LinFusion, nach nur bescheidenem Training eine Leistung erbringt, die mit oder sogar über der des Original-SD liegt, während die Zeit- und Speicherkomplexität signifikant reduziert wird. Umfangreiche Experimente mit SD-v1.5, SD-v2.1 und SD-XL zeigen, dass LinFusion zufriedenstellende Zero-Shot Cross-Resolution-Generierungsleistungen erbringt und hochauflösende Bilder wie 16K-Auflösung generiert. Darüber hinaus ist es hochkompatibel mit vortrainierten SD-Komponenten wie ControlNet und IP-Adapter und erfordert keine Anpassungsbemühungen. Der Code ist verfügbar unter https://github.com/Huage001/LinFusion.
English
Modern diffusion models, particularly those utilizing a Transformer-based UNet for denoising, rely heavily on self-attention operations to manage complex spatial relationships, thus achieving impressive generation performance. However, this existing paradigm faces significant challenges in generating high-resolution visual content due to its quadratic time and memory complexity with respect to the number of spatial tokens. To address this limitation, we aim at a novel linear attention mechanism as an alternative in this paper. Specifically, we begin our exploration from recently introduced models with linear complexity, e.g., Mamba, Mamba2, and Gated Linear Attention, and identify two key features-attention normalization and non-causal inference-that enhance high-resolution visual generation performance. Building on these insights, we introduce a generalized linear attention paradigm, which serves as a low-rank approximation of a wide spectrum of popular linear token mixers. To save the training cost and better leverage pre-trained models, we initialize our models and distill the knowledge from pre-trained StableDiffusion (SD). We find that the distilled model, termed LinFusion, achieves performance on par with or superior to the original SD after only modest training, while significantly reducing time and memory complexity. Extensive experiments on SD-v1.5, SD-v2.1, and SD-XL demonstrate that LinFusion delivers satisfactory zero-shot cross-resolution generation performance, generating high-resolution images like 16K resolution. Moreover, it is highly compatible with pre-trained SD components, such as ControlNet and IP-Adapter, requiring no adaptation efforts. Codes are available at https://github.com/Huage001/LinFusion.

Summary

AI-Generated Summary

PDF354November 16, 2024