HybridStitch: Cucitura di Modelli a Livello di Pixel e Timestep per l'Accelerazione della Diffusione
HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration
March 8, 2026
Autori: Desen Sun, Jason Hon, Jintao Zhang, Sihang Liu
cs.AI
Abstract
I modelli di diffusione hanno dimostrato una notevole capacità nelle applicazioni di generazione testo-immagine (T2I). Nonostante i risultati generativi avanzati, essi soffrono di un pesante sovraccarico computazionale, specialmente per i modelli di grandi dimensioni che contengono decine di miliardi di parametri. Lavori precedenti hanno illustrato come sostituire parte dei passi di denoising con un modello più piccolo mantenga comunque la qualità della generazione. Tuttavia, questi metodi si concentrano solo sul risparmio computazionale per alcuni intervalli di tempo, ignorando la differenza nella richiesta di calcolo all'interno di un singolo intervallo. In questo lavoro, proponiamo HybridStitch, un nuovo paradigma di generazione T2I che tratta la generazione come un'operazione di editing. Nello specifico, introduciamo una fase ibrida che incorpora congiuntamente sia il modello grande che quello piccolo. HybridStitch separa l'intera immagine in due regioni: una relativamente facile da renderizzare, che consente una transizione anticipata al modello più piccolo, e un'altra più complessa che richiede quindi un affinamento da parte del modello grande. HybridStitch utilizza il modello piccolo per costruire una bozza approssimativa, sfruttando contemporaneamente il modello grande per modificare e rifinire le regioni complesse. In base alla nostra valutazione, HybridStitch raggiunge un accelerazione di 1.83 volte su Stable Diffusion 3, risultando più veloce di tutti i metodi esistenti di mistura di modelli.
English
Diffusion models have demonstrated a remarkable ability in Text-to-Image (T2I) generation applications. Despite the advanced generation output, they suffer from heavy computation overhead, especially for large models that contain tens of billions of parameters. Prior work has illustrated that replacing part of the denoising steps with a smaller model still maintains the generation quality. However, these methods only focus on saving computation for some timesteps, ignoring the difference in compute demand within one timestep. In this work, we propose HybridStitch, a new T2I generation paradigm that treats generation like editing. Specifically, we introduce a hybrid stage that jointly incorporates both the large model and the small model. HybridStitch separates the entire image into two regions: one that is relatively easy to render, enabling an early transition to the smaller model, and another that is more complex and therefore requires refinement by the large model. HybridStitch employs the small model to construct a coarse sketch while exploiting the large model to edit and refine the complex regions. According to our evaluation, HybridStitch achieves 1.83times speedup on Stable Diffusion 3, which is faster than all existing mixture of model methods.