ChatPaper.aiChatPaper

Trainingsvrije diffusieversnelling met bottleneck-steekproef

Training-free Diffusion Acceleration with Bottleneck Sampling

March 24, 2025
Auteurs: Ye Tian, Xin Xia, Yuxi Ren, Shanchuan Lin, Xing Wang, Xuefeng Xiao, Yunhai Tong, Ling Yang, Bin Cui
cs.AI

Samenvatting

Diffusiemodellen hebben opmerkelijke capaciteiten getoond in het genereren van visuele inhoud, maar blijven uitdagend om in te zetten vanwege hun hoge rekenkosten tijdens inferentie. Deze rekenlast ontstaat voornamelijk door de kwadratische complexiteit van self-attention ten opzichte van de resolutie van afbeeldingen of video's. Hoewel bestaande versnellingsmethoden vaak inleveren op uitvoerkwaliteit of kostbare hertraining vereisen, merken we op dat de meeste diffusiemodellen vooraf getraind zijn op lagere resoluties, wat een mogelijkheid biedt om deze laagresolutie-priors te benutten voor efficiëntere inferentie zonder prestatieverlies. In dit werk introduceren we Bottleneck Sampling, een trainingsvrij raamwerk dat laagresolutie-priors benut om de rekenoverhead te verminderen terwijl de uitvoerkwaliteit behouden blijft. Bottleneck Sampling volgt een hoog-laag-hoog denoisingswerkflow: het voert hoogresolutie-denoisings uit in de initiële en finale fasen, terwijl het op lagere resoluties werkt in tussenliggende stappen. Om aliasing en vervagingsartefacten te verminderen, verfijnen we verder de resolutieovergangspunten en verschuiven we adaptief de denoising-tijdstappen in elke fase. We evalueren Bottleneck Sampling op zowel afbeeldings- als videogeneratietaken, waarbij uitgebreide experimenten aantonen dat het de inferentie versnelt tot wel 3x voor afbeeldingsgeneratie en 2,5x voor videogeneratie, terwijl de uitvoerkwaliteit vergelijkbaar blijft met het standaard volledige-resolutie-samplingproces over meerdere evaluatiemetrics. Code is beschikbaar op: https://github.com/tyfeld/Bottleneck-Sampling
English
Diffusion models have demonstrated remarkable capabilities in visual content generation but remain challenging to deploy due to their high computational cost during inference. This computational burden primarily arises from the quadratic complexity of self-attention with respect to image or video resolution. While existing acceleration methods often compromise output quality or necessitate costly retraining, we observe that most diffusion models are pre-trained at lower resolutions, presenting an opportunity to exploit these low-resolution priors for more efficient inference without degrading performance. In this work, we introduce Bottleneck Sampling, a training-free framework that leverages low-resolution priors to reduce computational overhead while preserving output fidelity. Bottleneck Sampling follows a high-low-high denoising workflow: it performs high-resolution denoising in the initial and final stages while operating at lower resolutions in intermediate steps. To mitigate aliasing and blurring artifacts, we further refine the resolution transition points and adaptively shift the denoising timesteps at each stage. We evaluate Bottleneck Sampling on both image and video generation tasks, where extensive experiments demonstrate that it accelerates inference by up to 3times for image generation and 2.5times for video generation, all while maintaining output quality comparable to the standard full-resolution sampling process across multiple evaluation metrics. Code is available at: https://github.com/tyfeld/Bottleneck-Sampling
PDF124March 25, 2025