LinFusion: 1 GPU, 1 Minuto, Immagine 16K
LinFusion: 1 GPU, 1 Minute, 16K Image
September 3, 2024
Autori: Songhua Liu, Weihao Yu, Zhenxiong Tan, Xinchao Wang
cs.AI
Abstract
I moderni modelli di diffusione, in particolare quelli che utilizzano un UNet basato su Transformer per il denoising, si basano pesantemente sulle operazioni di auto-attenzione per gestire complesse relazioni spaziali, ottenendo così un'impressionante performance generativa. Tuttavia, questo paradigma esistente si trova ad affrontare significativi ostacoli nella generazione di contenuti visivi ad alta risoluzione a causa della sua complessità temporale e di memoria quadratica rispetto al numero di token spaziali. Per affrontare questa limitazione, ci proponiamo di introdurre in questo articolo un nuovo meccanismo di attenzione lineare come alternativa. In particolare, iniziamo la nostra esplorazione dai modelli recentemente introdotti con complessità lineare, ad esempio Mamba, Mamba2 e Gated Linear Attention, e identifichiamo due caratteristiche chiave - normalizzazione dell'attenzione e inferenza non causale - che migliorano le performance di generazione visiva ad alta risoluzione. Sfruttando queste intuizioni, introduciamo un paradigma di attenzione lineare generalizzato, che funge da approssimazione a basso rango di una vasta gamma di popolari mischiatori di token lineari. Per ridurre i costi di addestramento e sfruttare al meglio i modelli pre-addestrati, iniziamo i nostri modelli e distilliamo le conoscenze dal pre-addestrato StableDiffusion (SD). Scopriamo che il modello distillato, denominato LinFusion, raggiunge performance paragonabili o superiori all'originale SD dopo un addestramento solo modesto, riducendo significativamente la complessità temporale e di memoria. Estesi esperimenti su SD-v1.5, SD-v2.1 e SD-XL dimostrano che LinFusion offre una soddisfacente performance di generazione cross-resolution zero-shot, generando immagini ad alta risoluzione come la risoluzione 16K. Inoltre, è altamente compatibile con i componenti pre-addestrati di SD, come ControlNet e IP-Adapter, senza richiedere sforzi di adattamento. Il codice è disponibile su https://github.com/Huage001/LinFusion.
English
Modern diffusion models, particularly those utilizing a Transformer-based
UNet for denoising, rely heavily on self-attention operations to manage complex
spatial relationships, thus achieving impressive generation performance.
However, this existing paradigm faces significant challenges in generating
high-resolution visual content due to its quadratic time and memory complexity
with respect to the number of spatial tokens. To address this limitation, we
aim at a novel linear attention mechanism as an alternative in this paper.
Specifically, we begin our exploration from recently introduced models with
linear complexity, e.g., Mamba, Mamba2, and Gated Linear Attention, and
identify two key features-attention normalization and non-causal inference-that
enhance high-resolution visual generation performance. Building on these
insights, we introduce a generalized linear attention paradigm, which serves as
a low-rank approximation of a wide spectrum of popular linear token mixers. To
save the training cost and better leverage pre-trained models, we initialize
our models and distill the knowledge from pre-trained StableDiffusion (SD). We
find that the distilled model, termed LinFusion, achieves performance on par
with or superior to the original SD after only modest training, while
significantly reducing time and memory complexity. Extensive experiments on
SD-v1.5, SD-v2.1, and SD-XL demonstrate that LinFusion delivers satisfactory
zero-shot cross-resolution generation performance, generating high-resolution
images like 16K resolution. Moreover, it is highly compatible with pre-trained
SD components, such as ControlNet and IP-Adapter, requiring no adaptation
efforts. Codes are available at https://github.com/Huage001/LinFusion.