PLADIS: Llevando al límite la atención en modelos de difusión durante el tiempo de inferencia mediante el aprovechamiento de la dispersión
PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity
March 10, 2025
Autores: Kwanyoung Kim, Byeongsu Sim
cs.AI
Resumen
Los modelos de difusión han demostrado resultados impresionantes en la generación de muestras condicionales de alta calidad utilizando técnicas de guía como la Guía Libre de Clasificador (CFG, por sus siglas en inglés). Sin embargo, los métodos existentes suelen requerir entrenamiento adicional o evaluaciones de funciones neuronales (NFEs), lo que los hace incompatibles con modelos de guía destilada. Además, dependen de enfoques heurísticos que requieren identificar capas objetivo. En este trabajo, proponemos un método novedoso y eficiente, denominado PLADIS, que potencia modelos preentrenados (U-Net/Transformer) aprovechando la atención dispersa. Específicamente, extrapolamos las correlaciones consulta-clave utilizando softmax y su contraparte dispersa en la capa de atención cruzada durante la inferencia, sin necesidad de entrenamiento adicional o NFEs. Al aprovechar la robustez al ruido de la atención dispersa, nuestro PLADIS libera el potencial latente de los modelos de difusión de texto a imagen, permitiéndoles destacar en áreas donde antes tenían dificultades con una efectividad renovada. Se integra perfectamente con técnicas de guía, incluyendo modelos de guía destilada. Experimentos extensos muestran mejoras notables en la alineación del texto y la preferencia humana, ofreciendo una solución altamente eficiente y universalmente aplicable.
English
Diffusion models have shown impressive results in generating high-quality
conditional samples using guidance techniques such as Classifier-Free Guidance
(CFG). However, existing methods often require additional training or neural
function evaluations (NFEs), making them incompatible with guidance-distilled
models. Also, they rely on heuristic approaches that need identifying target
layers. In this work, we propose a novel and efficient method, termed PLADIS,
which boosts pre-trained models (U-Net/Transformer) by leveraging sparse
attention. Specifically, we extrapolate query-key correlations using softmax
and its sparse counterpart in the cross-attention layer during inference,
without requiring extra training or NFEs. By leveraging the noise robustness of
sparse attention, our PLADIS unleashes the latent potential of text-to-image
diffusion models, enabling them to excel in areas where they once struggled
with newfound effectiveness. It integrates seamlessly with guidance techniques,
including guidance-distilled models. Extensive experiments show notable
improvements in text alignment and human preference, offering a highly
efficient and universally applicable solution.Summary
AI-Generated Summary