ChatPaper.aiChatPaper

Accelerazione del Diffusion senza Addestramento con Campionamento a Collo di Bottiglia

Training-free Diffusion Acceleration with Bottleneck Sampling

March 24, 2025
Autori: Ye Tian, Xin Xia, Yuxi Ren, Shanchuan Lin, Xing Wang, Xuefeng Xiao, Yunhai Tong, Ling Yang, Bin Cui
cs.AI

Abstract

I modelli di diffusione hanno dimostrato capacità straordinarie nella generazione di contenuti visivi, ma rimangono difficili da implementare a causa del loro elevato costo computazionale durante l'inferenza. Questo onere computazionale deriva principalmente dalla complessità quadratica dell'auto-attenzione rispetto alla risoluzione delle immagini o dei video. Mentre i metodi di accelerazione esistenti spesso compromettono la qualità dell'output o richiedono un costoso riaddestramento, osserviamo che la maggior parte dei modelli di diffusione viene pre-addestrata a risoluzioni inferiori, presentando un'opportunità per sfruttare questi prior a bassa risoluzione per un'inferenza più efficiente senza degradare le prestazioni. In questo lavoro, introduciamo il Bottleneck Sampling, un framework senza necessità di addestramento che sfrutta i prior a bassa risoluzione per ridurre il sovraccarico computazionale preservando la fedeltà dell'output. Il Bottleneck Sampling segue un flusso di lavoro di denoising alto-basso-alto: esegue il denoising ad alta risoluzione nelle fasi iniziali e finali, mentre opera a risoluzioni inferiori nei passaggi intermedi. Per mitigare gli artefatti di aliasing e sfocatura, perfezioniamo ulteriormente i punti di transizione della risoluzione e adattiamo in modo dinamico i passaggi temporali di denoising in ogni fase. Valutiamo il Bottleneck Sampling sia su compiti di generazione di immagini che di video, dove esperimenti estensivi dimostrano che accelera l'inferenza fino a 3 volte per la generazione di immagini e 2,5 volte per la generazione di video, mantenendo una qualità dell'output paragonabile al processo standard di campionamento a piena risoluzione su molteplici metriche di valutazione. Il codice è disponibile all'indirizzo: https://github.com/tyfeld/Bottleneck-Sampling
English
Diffusion models have demonstrated remarkable capabilities in visual content generation but remain challenging to deploy due to their high computational cost during inference. This computational burden primarily arises from the quadratic complexity of self-attention with respect to image or video resolution. While existing acceleration methods often compromise output quality or necessitate costly retraining, we observe that most diffusion models are pre-trained at lower resolutions, presenting an opportunity to exploit these low-resolution priors for more efficient inference without degrading performance. In this work, we introduce Bottleneck Sampling, a training-free framework that leverages low-resolution priors to reduce computational overhead while preserving output fidelity. Bottleneck Sampling follows a high-low-high denoising workflow: it performs high-resolution denoising in the initial and final stages while operating at lower resolutions in intermediate steps. To mitigate aliasing and blurring artifacts, we further refine the resolution transition points and adaptively shift the denoising timesteps at each stage. We evaluate Bottleneck Sampling on both image and video generation tasks, where extensive experiments demonstrate that it accelerates inference by up to 3times for image generation and 2.5times for video generation, all while maintaining output quality comparable to the standard full-resolution sampling process across multiple evaluation metrics. Code is available at: https://github.com/tyfeld/Bottleneck-Sampling
PDF124March 25, 2025