HybridStitch : Assemblage de Modèles au Niveau Pixel et Pas de Temps pour l'Accélération de la Diffusion

Résumé

Les modèles de diffusion ont démontré une capacité remarquable dans les applications de génération texte-image (T2I). Malgré leurs résultats de génération avancés, ils souffrent de lourdes surcharges computationnelles, en particulier pour les grands modèles contenant des dizaines de milliards de paramètres. Des travaux antérieurs ont montré que remplacer une partie des étapes de débruitage par un modèle plus petit permet de maintenir la qualité de génération. Cependant, ces méthodes se concentrent uniquement sur l'économie de calcul pour certaines étapes temporelles, ignorant la différence de demande computationnelle au sein d'une même étape. Dans ce travail, nous proposons HybridStitch, un nouveau paradigme de génération T2I qui traite la génération comme une tâche d'édition. Concrètement, nous introduisons une étape hybride qui intègre conjointement le grand modèle et le petit modèle. HybridStitch sépare l'image entière en deux régions : l'une relativement facile à générer, permettant une transition précoce vers le petit modèle, et l'autre plus complexe nécessitant un raffinement par le grand modèle. HybridStitch utilise le petit modèle pour construire une ébauche grossière tout en exploitant le grand modèle pour éditer et affiner les régions complexes. Selon notre évaluation, HybridStitch atteint une accélération de 1,83 fois sur Stable Diffusion 3, ce qui est plus rapide que toutes les méthodes existantes de mélange de modèles.

English

Diffusion models have demonstrated a remarkable ability in Text-to-Image (T2I) generation applications. Despite the advanced generation output, they suffer from heavy computation overhead, especially for large models that contain tens of billions of parameters. Prior work has illustrated that replacing part of the denoising steps with a smaller model still maintains the generation quality. However, these methods only focus on saving computation for some timesteps, ignoring the difference in compute demand within one timestep. In this work, we propose HybridStitch, a new T2I generation paradigm that treats generation like editing. Specifically, we introduce a hybrid stage that jointly incorporates both the large model and the small model. HybridStitch separates the entire image into two regions: one that is relatively easy to render, enabling an early transition to the smaller model, and another that is more complex and therefore requires refinement by the large model. HybridStitch employs the small model to construct a coarse sketch while exploiting the large model to edit and refine the complex regions. According to our evaluation, HybridStitch achieves 1.83times speedup on Stable Diffusion 3, which is faster than all existing mixture of model methods.

HybridStitch : Assemblage de Modèles au Niveau Pixel et Pas de Temps pour l'Accélération de la Diffusion

HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

Résumé

Support