PLADIS: Superare i Limiti dell'Attenzione nei Modelli di Diffusione al Momento dell'Inferenza Sfruttando la Sparsità
PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity
March 10, 2025
Autori: Kwanyoung Kim, Byeongsu Sim
cs.AI
Abstract
I modelli di diffusione hanno dimostrato risultati impressionanti nella generazione di campioni condizionati di alta qualità utilizzando tecniche di guida come la Classifier-Free Guidance (CFG). Tuttavia, i metodi esistenti spesso richiedono ulteriori addestramenti o valutazioni di funzioni neurali (NFE), rendendoli incompatibili con i modelli distillati con guida. Inoltre, si basano su approcci euristici che necessitano di identificare strati target. In questo lavoro, proponiamo un metodo nuovo ed efficiente, denominato PLADIS, che potenzia modelli pre-addestrati (U-Net/Transformer) sfruttando l'attenzione sparsa. Nello specifico, estrapoliamo le correlazioni query-chiave utilizzando softmax e la sua controparte sparsa nello strato di cross-attention durante l'inferenza, senza richiedere ulteriori addestramenti o NFE. Sfruttando la robustezza al rumore dell'attenzione sparsa, il nostro PLADIS libera il potenziale latente dei modelli di diffusione testo-immagine, consentendo loro di eccellere in aree in cui precedentemente faticavano con una nuova efficacia. Si integra perfettamente con le tecniche di guida, inclusi i modelli distillati con guida. Esperimenti estesi mostrano miglioramenti significativi nell'allineamento del testo e nella preferenza umana, offrendo una soluzione altamente efficiente e universalmente applicabile.
English
Diffusion models have shown impressive results in generating high-quality
conditional samples using guidance techniques such as Classifier-Free Guidance
(CFG). However, existing methods often require additional training or neural
function evaluations (NFEs), making them incompatible with guidance-distilled
models. Also, they rely on heuristic approaches that need identifying target
layers. In this work, we propose a novel and efficient method, termed PLADIS,
which boosts pre-trained models (U-Net/Transformer) by leveraging sparse
attention. Specifically, we extrapolate query-key correlations using softmax
and its sparse counterpart in the cross-attention layer during inference,
without requiring extra training or NFEs. By leveraging the noise robustness of
sparse attention, our PLADIS unleashes the latent potential of text-to-image
diffusion models, enabling them to excel in areas where they once struggled
with newfound effectiveness. It integrates seamlessly with guidance techniques,
including guidance-distilled models. Extensive experiments show notable
improvements in text alignment and human preference, offering a highly
efficient and universally applicable solution.