ChatPaper.aiChatPaper

Accélération de la diffusion sans entraînement par échantillonnage de goulot d'étranglement

Training-free Diffusion Acceleration with Bottleneck Sampling

March 24, 2025
Auteurs: Ye Tian, Xin Xia, Yuxi Ren, Shanchuan Lin, Xing Wang, Xuefeng Xiao, Yunhai Tong, Ling Yang, Bin Cui
cs.AI

Résumé

Les modèles de diffusion ont démontré des capacités remarquables dans la génération de contenu visuel, mais leur déploiement reste difficile en raison de leur coût computationnel élevé lors de l'inférence. Cette charge computationnelle découle principalement de la complexité quadratique de l'auto-attention par rapport à la résolution des images ou des vidéos. Bien que les méthodes d'accélération existantes compromettent souvent la qualité des résultats ou nécessitent un réentraînement coûteux, nous observons que la plupart des modèles de diffusion sont pré-entraînés à des résolutions plus faibles, offrant ainsi une opportunité d'exploiter ces préconnaissances à basse résolution pour une inférence plus efficace sans dégrader les performances. Dans ce travail, nous introduisons **Bottleneck Sampling**, un cadre sans entraînement qui exploite les préconnaissances à basse résolution pour réduire la surcharge computationnelle tout en préservant la fidélité des résultats. **Bottleneck Sampling** suit un workflow de débruîtage haut-bas-haut : il effectue un débruîtage à haute résolution dans les étapes initiales et finales, tout en opérant à des résolutions plus faibles dans les étapes intermédiaires. Pour atténuer les artefacts de crénelage et de flou, nous affinons davantage les points de transition de résolution et ajustons de manière adaptative les étapes de débruîtage à chaque stade. Nous évaluons **Bottleneck Sampling** sur des tâches de génération d'images et de vidéos, où des expériences approfondies démontrent qu'il accélère l'inférence jusqu'à 3 fois pour la génération d'images et 2,5 fois pour la génération de vidéos, tout en maintenant une qualité de sortie comparable au processus standard d'échantillonnage à pleine résolution selon plusieurs métriques d'évaluation. Le code est disponible à l'adresse : https://github.com/tyfeld/Bottleneck-Sampling.
English
Diffusion models have demonstrated remarkable capabilities in visual content generation but remain challenging to deploy due to their high computational cost during inference. This computational burden primarily arises from the quadratic complexity of self-attention with respect to image or video resolution. While existing acceleration methods often compromise output quality or necessitate costly retraining, we observe that most diffusion models are pre-trained at lower resolutions, presenting an opportunity to exploit these low-resolution priors for more efficient inference without degrading performance. In this work, we introduce Bottleneck Sampling, a training-free framework that leverages low-resolution priors to reduce computational overhead while preserving output fidelity. Bottleneck Sampling follows a high-low-high denoising workflow: it performs high-resolution denoising in the initial and final stages while operating at lower resolutions in intermediate steps. To mitigate aliasing and blurring artifacts, we further refine the resolution transition points and adaptively shift the denoising timesteps at each stage. We evaluate Bottleneck Sampling on both image and video generation tasks, where extensive experiments demonstrate that it accelerates inference by up to 3times for image generation and 2.5times for video generation, all while maintaining output quality comparable to the standard full-resolution sampling process across multiple evaluation metrics. Code is available at: https://github.com/tyfeld/Bottleneck-Sampling

Summary

AI-Generated Summary

PDF124March 25, 2025