PLADIS: De Grenzen van Aandacht in Diffusiemodellen tijdens Inferentie Verleggen door Sparsheid te Benutten
PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity
March 10, 2025
Auteurs: Kwanyoung Kim, Byeongsu Sim
cs.AI
Samenvatting
Diffusiemodellen hebben indrukwekkende resultaten laten zien bij het genereren van hoogwaardige conditionele samples met behulp van begeleidingstechnieken zoals Classifier-Free Guidance (CFG). Bestaande methoden vereisen echter vaak extra training of neurale functie-evaluaties (NFEs), waardoor ze niet compatibel zijn met begeleidingsgedistilleerde modellen. Bovendien vertrouwen ze op heuristische benaderingen die het identificeren van doel-lagen vereisen. In dit werk stellen we een nieuwe en efficiënte methode voor, genaamd PLADIS, die vooraf getrainde modellen (U-Net/Transformer) versterkt door gebruik te maken van sparse attention. Specifiek extrapoleren we query-key correlaties met behulp van softmax en zijn sparse tegenhanger in de cross-attention laag tijdens inferentie, zonder extra training of NFEs nodig te hebben. Door gebruik te maken van de ruisbestendigheid van sparse attention, ontketent onze PLADIS het latente potentieel van tekst-naar-beeld diffusiemodellen, waardoor ze uitblinken in gebieden waar ze voorheen moeite hadden met nieuwe effectiviteit. Het integreert naadloos met begeleidingstechnieken, inclusief begeleidingsgedistilleerde modellen. Uitgebreide experimenten tonen aanzienlijke verbeteringen in tekstuitlijning en menselijke voorkeur, wat een zeer efficiënte en universeel toepasbare oplossing biedt.
English
Diffusion models have shown impressive results in generating high-quality
conditional samples using guidance techniques such as Classifier-Free Guidance
(CFG). However, existing methods often require additional training or neural
function evaluations (NFEs), making them incompatible with guidance-distilled
models. Also, they rely on heuristic approaches that need identifying target
layers. In this work, we propose a novel and efficient method, termed PLADIS,
which boosts pre-trained models (U-Net/Transformer) by leveraging sparse
attention. Specifically, we extrapolate query-key correlations using softmax
and its sparse counterpart in the cross-attention layer during inference,
without requiring extra training or NFEs. By leveraging the noise robustness of
sparse attention, our PLADIS unleashes the latent potential of text-to-image
diffusion models, enabling them to excel in areas where they once struggled
with newfound effectiveness. It integrates seamlessly with guidance techniques,
including guidance-distilled models. Extensive experiments show notable
improvements in text alignment and human preference, offering a highly
efficient and universally applicable solution.Summary
AI-Generated Summary