Q-Sched: Расширение границ диффузионных моделей с малым числом шагов за счет квантования с учетом расписания

Аннотация

Модели диффузии для генерации изображений из текста требуют значительных вычислительных ресурсов, часто выполняя десятки прямых проходов через крупные трансформерные архитектуры. Например, Stable Diffusion XL создает высококачественные изображения с помощью 50 итераций модели, содержащей 2,6 миллиарда параметров, что является дорогостоящим процессом даже для одного батча. Модели с малым количеством шагов диффузии снижают эту стоимость до 2-8 шагов денойзинга, но по-прежнему зависят от крупных, несжатых архитектур U-Net или диффузионных трансформеров, которые часто слишком затратны для полноточного вывода без использования GPU в дата-центрах. Эти требования также ограничивают существующие методы посттренировочной квантизации, которые полагаются на полноточную калибровку. Мы представляем Q-Sched, новый подход к посттренировочной квантизации, который модифицирует планировщик модели диффузии, а не веса модели. Настраивая траекторию выборки с малым количеством шагов, Q-Sched достигает точности полноточного вывода при четырехкратном уменьшении размера модели. Для обучения коэффициентов предварительной подготовки, учитывающих квантизацию, мы предлагаем функцию потерь JAQ, которая сочетает совместимость текста и изображения с метрикой качества изображения для детальной оптимизации. JAQ не требует эталонных данных и использует лишь несколько калибровочных запросов, избегая полноточного вывода во время калибровки. Q-Sched демонстрирует значительные улучшения: увеличение FID на 15,5% по сравнению с 4-шаговой Latent Consistency Model в формате FP16 и на 16,6% по сравнению с 8-шаговой Phased Consistency Model в формате FP16, показывая, что квантизация и дистилляция с малым количеством шагов дополняют друг друга для генерации с высокой точностью. Крупномасштабное исследование с участием более 80 000 аннотаций дополнительно подтверждает эффективность Q-Sched как на FLUX.1[schnell], так и на SDXL-Turbo.

English

Text-to-image diffusion models are computationally intensive, often requiring dozens of forward passes through large transformer backbones. For instance, Stable Diffusion XL generates high-quality images with 50 evaluations of a 2.6B-parameter model, an expensive process even for a single batch. Few-step diffusion models reduce this cost to 2-8 denoising steps but still depend on large, uncompressed U-Net or diffusion transformer backbones, which are often too costly for full-precision inference without datacenter GPUs. These requirements also limit existing post-training quantization methods that rely on full-precision calibration. We introduce Q-Sched, a new paradigm for post-training quantization that modifies the diffusion model scheduler rather than model weights. By adjusting the few-step sampling trajectory, Q-Sched achieves full-precision accuracy with a 4x reduction in model size. To learn quantization-aware pre-conditioning coefficients, we propose the JAQ loss, which combines text-image compatibility with an image quality metric for fine-grained optimization. JAQ is reference-free and requires only a handful of calibration prompts, avoiding full-precision inference during calibration. Q-Sched delivers substantial gains: a 15.5% FID improvement over the FP16 4-step Latent Consistency Model and a 16.6% improvement over the FP16 8-step Phased Consistency Model, showing that quantization and few-step distillation are complementary for high-fidelity generation. A large-scale user study with more than 80,000 annotations further confirms Q-Sched's effectiveness on both FLUX.1[schnell] and SDXL-Turbo.

Q-Sched: Расширение границ диффузионных моделей с малым числом шагов за счет квантования с учетом расписания

Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling

Аннотация

Support