HybridStitch: Costura de Modelos em Nível de Pixel e Timestep para Aceleração de Difusão
HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration
March 8, 2026
Autores: Desen Sun, Jason Hon, Jintao Zhang, Sihang Liu
cs.AI
Resumo
Os modelos de difusão demonstraram uma capacidade notável em aplicações de geração de texto para imagem (T2I). Apesar dos resultados avançados de geração, eles sofrem com uma sobrecarga computacional significativa, especialmente para modelos grandes que contêm dezenas de bilhões de parâmetros. Trabalhos anteriores ilustraram que substituir parte das etapas de remoção de ruído por um modelo menor ainda mantém a qualidade da geração. No entanto, esses métodos focam apenas em economizar computação para alguns intervalos de tempo, ignorando a diferença na demanda computacional dentro de um único intervalo. Neste trabalho, propomos o HybridStitch, um novo paradigma de geração T2I que trata a geração como edição. Especificamente, introduzimos um estágio híbrido que incorpora conjuntamente tanto o modelo grande quanto o modelo pequeno. O HybridStitch separa a imagem inteira em duas regiões: uma que é relativamente fácil de renderizar, permitindo uma transição antecipada para o modelo menor, e outra que é mais complexa e, portanto, requer refinamento pelo modelo grande. O HybridStitch emprega o modelo pequeno para construir um esboço grosso enquanto explora o modelo grande para editar e refinar as regiões complexas. De acordo com nossa avaliação, o HybridStitch alcança uma aceleração de 1,83 vezes no Stable Diffusion 3, sendo mais rápido que todos os métodos existentes de mistura de modelos.
English
Diffusion models have demonstrated a remarkable ability in Text-to-Image (T2I) generation applications. Despite the advanced generation output, they suffer from heavy computation overhead, especially for large models that contain tens of billions of parameters. Prior work has illustrated that replacing part of the denoising steps with a smaller model still maintains the generation quality. However, these methods only focus on saving computation for some timesteps, ignoring the difference in compute demand within one timestep. In this work, we propose HybridStitch, a new T2I generation paradigm that treats generation like editing. Specifically, we introduce a hybrid stage that jointly incorporates both the large model and the small model. HybridStitch separates the entire image into two regions: one that is relatively easy to render, enabling an early transition to the smaller model, and another that is more complex and therefore requires refinement by the large model. HybridStitch employs the small model to construct a coarse sketch while exploiting the large model to edit and refine the complex regions. According to our evaluation, HybridStitch achieves 1.83times speedup on Stable Diffusion 3, which is faster than all existing mixture of model methods.