PLADIS : Repousser les limites de l'attention dans les modèles de diffusion au moment de l'inférence en exploitant la parcimonie
PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity
March 10, 2025
Auteurs: Kwanyoung Kim, Byeongsu Sim
cs.AI
Résumé
Les modèles de diffusion ont démontré des résultats impressionnants dans la génération d'échantillons conditionnels de haute qualité grâce à des techniques de guidage telles que le Classifier-Free Guidance (CFG). Cependant, les méthodes existantes nécessitent souvent un entraînement supplémentaire ou des évaluations de fonctions neuronales (NFEs), les rendant incompatibles avec les modèles distillés par guidage. De plus, elles reposent sur des approches heuristiques qui nécessitent l'identification de couches cibles. Dans ce travail, nous proposons une méthode novatrice et efficace, appelée PLADIS, qui améliore les modèles pré-entraînés (U-Net/Transformer) en exploitant l'attention parcimonieuse. Plus précisément, nous extrapolons les corrélations entre les requêtes et les clés en utilisant la fonction softmax et sa version parcimonieuse dans la couche d'attention croisée lors de l'inférence, sans nécessiter d'entraînement supplémentaire ni de NFEs. En tirant parti de la robustesse au bruit de l'attention parcimonieuse, notre méthode PLADIS libère le potentiel latent des modèles de diffusion texte-image, leur permettant d'exceller dans des domaines où ils rencontraient auparavant des difficultés, avec une efficacité renouvelée. Elle s'intègre de manière transparente avec les techniques de guidage, y compris les modèles distillés par guidage. Des expériences approfondies montrent des améliorations notables dans l'alignement textuel et les préférences humaines, offrant une solution hautement efficace et universellement applicable.
English
Diffusion models have shown impressive results in generating high-quality
conditional samples using guidance techniques such as Classifier-Free Guidance
(CFG). However, existing methods often require additional training or neural
function evaluations (NFEs), making them incompatible with guidance-distilled
models. Also, they rely on heuristic approaches that need identifying target
layers. In this work, we propose a novel and efficient method, termed PLADIS,
which boosts pre-trained models (U-Net/Transformer) by leveraging sparse
attention. Specifically, we extrapolate query-key correlations using softmax
and its sparse counterpart in the cross-attention layer during inference,
without requiring extra training or NFEs. By leveraging the noise robustness of
sparse attention, our PLADIS unleashes the latent potential of text-to-image
diffusion models, enabling them to excel in areas where they once struggled
with newfound effectiveness. It integrates seamlessly with guidance techniques,
including guidance-distilled models. Extensive experiments show notable
improvements in text alignment and human preference, offering a highly
efficient and universally applicable solution.Summary
AI-Generated Summary