ChatPaper.aiChatPaper

Q-Sched: Расширение границ диффузионных моделей с малым числом шагов за счет квантования с учетом расписания

Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling

September 1, 2025
Авторы: Natalia Frumkin, Diana Marculescu
cs.AI

Аннотация

Модели диффузии для генерации изображений из текста требуют значительных вычислительных ресурсов, часто выполняя десятки прямых проходов через крупные трансформерные архитектуры. Например, Stable Diffusion XL создает высококачественные изображения с помощью 50 итераций модели, содержащей 2,6 миллиарда параметров, что является дорогостоящим процессом даже для одного батча. Модели с малым количеством шагов диффузии снижают эту стоимость до 2-8 шагов денойзинга, но по-прежнему зависят от крупных, несжатых архитектур U-Net или диффузионных трансформеров, которые часто слишком затратны для полноточного вывода без использования GPU в дата-центрах. Эти требования также ограничивают существующие методы посттренировочной квантизации, которые полагаются на полноточную калибровку. Мы представляем Q-Sched, новый подход к посттренировочной квантизации, который модифицирует планировщик модели диффузии, а не веса модели. Настраивая траекторию выборки с малым количеством шагов, Q-Sched достигает точности полноточного вывода при четырехкратном уменьшении размера модели. Для обучения коэффициентов предварительной подготовки, учитывающих квантизацию, мы предлагаем функцию потерь JAQ, которая сочетает совместимость текста и изображения с метрикой качества изображения для детальной оптимизации. JAQ не требует эталонных данных и использует лишь несколько калибровочных запросов, избегая полноточного вывода во время калибровки. Q-Sched демонстрирует значительные улучшения: увеличение FID на 15,5% по сравнению с 4-шаговой Latent Consistency Model в формате FP16 и на 16,6% по сравнению с 8-шаговой Phased Consistency Model в формате FP16, показывая, что квантизация и дистилляция с малым количеством шагов дополняют друг друга для генерации с высокой точностью. Крупномасштабное исследование с участием более 80 000 аннотаций дополнительно подтверждает эффективность Q-Sched как на FLUX.1[schnell], так и на SDXL-Turbo.
English
Text-to-image diffusion models are computationally intensive, often requiring dozens of forward passes through large transformer backbones. For instance, Stable Diffusion XL generates high-quality images with 50 evaluations of a 2.6B-parameter model, an expensive process even for a single batch. Few-step diffusion models reduce this cost to 2-8 denoising steps but still depend on large, uncompressed U-Net or diffusion transformer backbones, which are often too costly for full-precision inference without datacenter GPUs. These requirements also limit existing post-training quantization methods that rely on full-precision calibration. We introduce Q-Sched, a new paradigm for post-training quantization that modifies the diffusion model scheduler rather than model weights. By adjusting the few-step sampling trajectory, Q-Sched achieves full-precision accuracy with a 4x reduction in model size. To learn quantization-aware pre-conditioning coefficients, we propose the JAQ loss, which combines text-image compatibility with an image quality metric for fine-grained optimization. JAQ is reference-free and requires only a handful of calibration prompts, avoiding full-precision inference during calibration. Q-Sched delivers substantial gains: a 15.5% FID improvement over the FP16 4-step Latent Consistency Model and a 16.6% improvement over the FP16 8-step Phased Consistency Model, showing that quantization and few-step distillation are complementary for high-fidelity generation. A large-scale user study with more than 80,000 annotations further confirms Q-Sched's effectiveness on both FLUX.1[schnell] and SDXL-Turbo.
PDF62September 10, 2025