HybridStitch: Modelstitching op Pixelniveau en Tijdsstapniveau voor Versnelling van Diffusie

Samenvatting

Diffusiemodellen hebben een opmerkelijke capaciteit getoond in tekst-naar-beeld (T2I) generatietoepassingen. Ondanks de geavanceerde generatieresultaten kampen ze met een zware rekenkost, vooral voor grote modellen die tientallen miljarden parameters bevatten. Eerder onderzoek heeft aangetoond dat het vervangen van een deel van de denoiseringsstappen door een kleiner model de generatiekwaliteit behoudt. Deze methoden richten zich echter alleen op het besparen van rekenwerk voor sommige tijdstappen, waarbij het verschil in rekenbehoefte binnen één tijdstap wordt genegeerd. In dit werk stellen we HybridStitch voor, een nieuw T2I-generatieparadigma dat generatie benadert als bewerking. Concreet introduceren we een hybride fase die zowel het grote als het kleine model gezamenlijk incorporeert. HybridStitch scheidt de volledige afbeelding in twee regio's: één die relatief eenvoudig is weer te geven, waardoor een vroege overgang naar het kleinere model mogelijk is, en een andere die complexer is en daarom verfijning door het grote model vereist. HybridStitch gebruikt het kleine model om een ruwe schets te construeren en benut het grote model om de complexe regio's te bewerken en te verfijnen. Volgens onze evaluatie behaalt HybridStitch een 1,83 keer snellere verwerking op Stable Diffusion 3, wat sneller is dan alle bestaande modelmengmethoden.

English

Diffusion models have demonstrated a remarkable ability in Text-to-Image (T2I) generation applications. Despite the advanced generation output, they suffer from heavy computation overhead, especially for large models that contain tens of billions of parameters. Prior work has illustrated that replacing part of the denoising steps with a smaller model still maintains the generation quality. However, these methods only focus on saving computation for some timesteps, ignoring the difference in compute demand within one timestep. In this work, we propose HybridStitch, a new T2I generation paradigm that treats generation like editing. Specifically, we introduce a hybrid stage that jointly incorporates both the large model and the small model. HybridStitch separates the entire image into two regions: one that is relatively easy to render, enabling an early transition to the smaller model, and another that is more complex and therefore requires refinement by the large model. HybridStitch employs the small model to construct a coarse sketch while exploiting the large model to edit and refine the complex regions. According to our evaluation, HybridStitch achieves 1.83times speedup on Stable Diffusion 3, which is faster than all existing mixture of model methods.

HybridStitch: Modelstitching op Pixelniveau en Tijdsstapniveau voor Versnelling van Diffusie

HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

Samenvatting

Support