HybridStitch: Сшивание моделей на уровне пикселей и временных шагов для ускорения диффузии

Аннотация

Диффузионные модели продемонстрировали впечатляющие способности в задачах генерации изображений по тексту (Text-to-Image, T2I). Несмотря на высокое качество генерируемых изображений, они страдают от высоких вычислительных затрат, особенно это касается крупных моделей, содержащих десятки миллиардов параметров. Предыдущие исследования показали, что замена части шагов денойзинга на меньшую модель позволяет сохранить качество генерации. Однако эти методы ориентированы на экономию вычислений лишь для некоторых временных шагов, игнорируя разницу в вычислительных потребностях в рамках одного шага. В данной работе мы предлагаем HybridStitch — новую парадигму T2I-генерации, которая трактует генерацию как редактирование. В частности, мы вводим гибридную стадию, которая совместно использует как большую, так и малую модель. HybridStitch разделяет всё изображение на две области: одну, которая относительно проста для рендеринга и позволяет раньше перейти к малой модели, и другую, более сложную, требующую доработки большой моделью. HybridStitch использует малую модель для построения грубого эскиза, в то время как большая модель применяется для редактирования и уточнения сложных областей. Согласно нашей оценке, HybridStitch обеспечивает ускорение в 1.83 раза для Stable Diffusion 3, что быстрее всех существующих методов смешивания моделей.

English

Diffusion models have demonstrated a remarkable ability in Text-to-Image (T2I) generation applications. Despite the advanced generation output, they suffer from heavy computation overhead, especially for large models that contain tens of billions of parameters. Prior work has illustrated that replacing part of the denoising steps with a smaller model still maintains the generation quality. However, these methods only focus on saving computation for some timesteps, ignoring the difference in compute demand within one timestep. In this work, we propose HybridStitch, a new T2I generation paradigm that treats generation like editing. Specifically, we introduce a hybrid stage that jointly incorporates both the large model and the small model. HybridStitch separates the entire image into two regions: one that is relatively easy to render, enabling an early transition to the smaller model, and another that is more complex and therefore requires refinement by the large model. HybridStitch employs the small model to construct a coarse sketch while exploiting the large model to edit and refine the complex regions. According to our evaluation, HybridStitch achieves 1.83times speedup on Stable Diffusion 3, which is faster than all existing mixture of model methods.

HybridStitch: Сшивание моделей на уровне пикселей и временных шагов для ускорения диффузии

HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

Аннотация

Support