ChatPaper.aiChatPaper

Échantillonnage Adaptatif par Région pour les Transformeurs de Diffusion

Region-Adaptive Sampling for Diffusion Transformers

February 14, 2025
Auteurs: Ziming Liu, Yifan Yang, Chengruidong Zhang, Yiqi Zhang, Lili Qiu, Yang You, Yuqing Yang
cs.AI

Résumé

Les modèles de diffusion (DMs) sont devenus le choix privilégié pour les tâches génératives dans divers domaines. Cependant, leur dépendance à de multiples passes avant séquentielles limite considérablement les performances en temps réel. Les méthodes d'accélération précédentes se sont principalement concentrées sur la réduction du nombre d'étapes d'échantillonnage ou la réutilisation des résultats intermédiaires, ne parvenant pas à exploiter les variations entre les régions spatiales de l'image en raison des contraintes des structures convolutives U-Net. En tirant parti de la flexibilité des Transformers de Diffusion (DiTs) dans la gestion d'un nombre variable de tokens, nous introduisons RAS, une nouvelle stratégie d'échantillonnage sans entraînement qui attribue dynamiquement des ratios d'échantillonnage différents aux régions d'une image en fonction de l'attention du modèle DiT. Notre observation clé est qu'à chaque étape d'échantillonnage, le modèle se concentre sur des régions sémantiquement significatives, et ces zones d'attention présentent une forte continuité entre les étapes consécutives. En exploitant cette intuition, RAS met à jour uniquement les régions actuellement en focus, tandis que les autres régions sont mises à jour en utilisant le bruit mis en cache de l'étape précédente. L'attention du modèle est déterminée en fonction de la sortie de l'étape précédente, en capitalisant sur la cohérence temporelle que nous avons observée. Nous évaluons RAS sur Stable Diffusion 3 et Lumina-Next-T2I, obtenant des accélérations allant jusqu'à 2,36x et 2,51x respectivement, avec une dégradation minimale de la qualité de génération. De plus, une étude utilisateur révèle que RAS offre des qualités comparables sous évaluation humaine tout en atteignant une accélération de 1,6x. Notre approche représente une avancée significative vers des transformers de diffusion plus efficaces, renforçant leur potentiel pour des applications en temps réel.
English
Diffusion models (DMs) have become the leading choice for generative tasks across diverse domains. However, their reliance on multiple sequential forward passes significantly limits real-time performance. Previous acceleration methods have primarily focused on reducing the number of sampling steps or reusing intermediate results, failing to leverage variations across spatial regions within the image due to the constraints of convolutional U-Net structures. By harnessing the flexibility of Diffusion Transformers (DiTs) in handling variable number of tokens, we introduce RAS, a novel, training-free sampling strategy that dynamically assigns different sampling ratios to regions within an image based on the focus of the DiT model. Our key observation is that during each sampling step, the model concentrates on semantically meaningful regions, and these areas of focus exhibit strong continuity across consecutive steps. Leveraging this insight, RAS updates only the regions currently in focus, while other regions are updated using cached noise from the previous step. The model's focus is determined based on the output from the preceding step, capitalizing on the temporal consistency we observed. We evaluate RAS on Stable Diffusion 3 and Lumina-Next-T2I, achieving speedups up to 2.36x and 2.51x, respectively, with minimal degradation in generation quality. Additionally, a user study reveals that RAS delivers comparable qualities under human evaluation while achieving a 1.6x speedup. Our approach makes a significant step towards more efficient diffusion transformers, enhancing their potential for real-time applications.

Summary

AI-Generated Summary

PDF543February 17, 2025