Q-Sched: Расширение границ диффузионных моделей с малым числом шагов за счет квантования с учетом расписания
Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling
September 1, 2025
Авторы: Natalia Frumkin, Diana Marculescu
cs.AI
Аннотация
Модели диффузии для генерации изображений из текста требуют значительных вычислительных ресурсов, часто выполняя десятки прямых проходов через крупные трансформерные архитектуры. Например, Stable Diffusion XL создает высококачественные изображения с помощью 50 итераций модели, содержащей 2,6 миллиарда параметров, что является дорогостоящим процессом даже для одного батча. Модели с малым количеством шагов диффузии снижают эту стоимость до 2-8 шагов денойзинга, но по-прежнему зависят от крупных, несжатых архитектур U-Net или диффузионных трансформеров, которые часто слишком затратны для полноточного вывода без использования GPU в дата-центрах. Эти требования также ограничивают существующие методы посттренировочной квантизации, которые полагаются на полноточную калибровку. Мы представляем Q-Sched, новый подход к посттренировочной квантизации, который модифицирует планировщик модели диффузии, а не веса модели. Настраивая траекторию выборки с малым количеством шагов, Q-Sched достигает точности полноточного вывода при четырехкратном уменьшении размера модели. Для обучения коэффициентов предварительной подготовки, учитывающих квантизацию, мы предлагаем функцию потерь JAQ, которая сочетает совместимость текста и изображения с метрикой качества изображения для детальной оптимизации. JAQ не требует эталонных данных и использует лишь несколько калибровочных запросов, избегая полноточного вывода во время калибровки. Q-Sched демонстрирует значительные улучшения: увеличение FID на 15,5% по сравнению с 4-шаговой Latent Consistency Model в формате FP16 и на 16,6% по сравнению с 8-шаговой Phased Consistency Model в формате FP16, показывая, что квантизация и дистилляция с малым количеством шагов дополняют друг друга для генерации с высокой точностью. Крупномасштабное исследование с участием более 80 000 аннотаций дополнительно подтверждает эффективность Q-Sched как на FLUX.1[schnell], так и на SDXL-Turbo.
English
Text-to-image diffusion models are computationally intensive, often requiring
dozens of forward passes through large transformer backbones. For instance,
Stable Diffusion XL generates high-quality images with 50 evaluations of a
2.6B-parameter model, an expensive process even for a single batch. Few-step
diffusion models reduce this cost to 2-8 denoising steps but still depend on
large, uncompressed U-Net or diffusion transformer backbones, which are often
too costly for full-precision inference without datacenter GPUs. These
requirements also limit existing post-training quantization methods that rely
on full-precision calibration. We introduce Q-Sched, a new paradigm for
post-training quantization that modifies the diffusion model scheduler rather
than model weights. By adjusting the few-step sampling trajectory, Q-Sched
achieves full-precision accuracy with a 4x reduction in model size. To learn
quantization-aware pre-conditioning coefficients, we propose the JAQ loss,
which combines text-image compatibility with an image quality metric for
fine-grained optimization. JAQ is reference-free and requires only a handful of
calibration prompts, avoiding full-precision inference during calibration.
Q-Sched delivers substantial gains: a 15.5% FID improvement over the FP16
4-step Latent Consistency Model and a 16.6% improvement over the FP16 8-step
Phased Consistency Model, showing that quantization and few-step distillation
are complementary for high-fidelity generation. A large-scale user study with
more than 80,000 annotations further confirms Q-Sched's effectiveness on both
FLUX.1[schnell] and SDXL-Turbo.