HybridStitch: Modell-Verknüpfung auf Pixel- und Zeitschritt-Ebene zur Beschleunigung von Diffusion
HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration
March 8, 2026
Autoren: Desen Sun, Jason Hon, Jintao Zhang, Sihang Liu
cs.AI
Zusammenfassung
Diffusionsmodelle haben eine bemerkenswerte Fähigkeit bei Text-zu-Bild (T2I)-Generierungsanwendungen unter Beweis gestellt. Trotz der hochwertigen Generierungsergebnisse leiden sie unter hohem Rechenaufwand, insbesondere bei großen Modellen mit zig Milliarden Parametern. Frühere Arbeiten haben gezeigt, dass das Ersetzen eines Teils der Entrauschungsschritte durch ein kleineres Modell die Generierungsqualität dennoch aufrechterhält. Diese Methoden konzentrieren sich jedoch nur darauf, Rechenaufwand für einige Zeitschritte einzusparen, und ignorieren die Unterschiede im Rechenbedarf innerhalb eines einzelnen Zeitschritts. In dieser Arbeit schlagen wir HybridStitch vor, ein neues T2I-Generierungsparadigma, das Generierung wie Bearbeitung behandelt. Konkret führen wir eine hybride Phase ein, die sowohl das große als auch das kleine Modell gemeinsam einbezieht. HybridStitch unterteilt das gesamte Bild in zwei Bereiche: einen, der relativ einfach darzustellen ist und einen frühen Übergang zum kleineren Modell ermöglicht, und einen anderen, der komplexer ist und daher eine Verfeinerung durch das große Modell erfordert. HybridStitch setzt das kleine Modell ein, um eine grobe Skizze zu erstellen, und nutzt gleichzeitig das große Modell, um die komplexen Regionen zu bearbeiten und zu verfeinern. Unseren Evaluierungen zufolge erzielt HybridStitch eine 1,83-fache Beschleunigung bei Stable Diffusion 3, was schneller ist als alle bestehenden Methoden zur Modellkombination.
English
Diffusion models have demonstrated a remarkable ability in Text-to-Image (T2I) generation applications. Despite the advanced generation output, they suffer from heavy computation overhead, especially for large models that contain tens of billions of parameters. Prior work has illustrated that replacing part of the denoising steps with a smaller model still maintains the generation quality. However, these methods only focus on saving computation for some timesteps, ignoring the difference in compute demand within one timestep. In this work, we propose HybridStitch, a new T2I generation paradigm that treats generation like editing. Specifically, we introduce a hybrid stage that jointly incorporates both the large model and the small model. HybridStitch separates the entire image into two regions: one that is relatively easy to render, enabling an early transition to the smaller model, and another that is more complex and therefore requires refinement by the large model. HybridStitch employs the small model to construct a coarse sketch while exploiting the large model to edit and refine the complex regions. According to our evaluation, HybridStitch achieves 1.83times speedup on Stable Diffusion 3, which is faster than all existing mixture of model methods.