Q-Sched: 量子化を意識したスケジューリングによるFew-Step Diffusion Modelsの限界への挑戦
Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling
September 1, 2025
著者: Natalia Frumkin, Diana Marculescu
cs.AI
要旨
テキストから画像を生成する拡散モデルは計算量が大きく、大規模なTransformerバックボーンを数十回も順方向に通過する必要があります。例えば、Stable Diffusion XLは2.6Bパラメータのモデルを50回評価することで高品質な画像を生成しますが、これは単一のバッチ処理でも非常に高コストです。少ステップ拡散モデルはこのコストを2~8回のノイズ除去ステップに削減しますが、依然として大規模で非圧縮のU-Netや拡散Transformerバックボーンに依存しており、データセンターGPUなしでの完全精度推論にはコストがかかりすぎます。これらの要件は、完全精度キャリブレーションに依存する既存の学習後量子化手法も制限しています。本研究では、モデルの重みではなく拡散モデルのスケジューラを変更する新しい学習後量子化パラダイムであるQ-Schedを提案します。Q-Schedは、少ステップサンプリング軌道を調整することで、モデルサイズを4分の1に削減しながら完全精度の精度を実現します。量子化対応の事前条件付け係数を学習するために、テキストと画像の互換性と画像品質メトリックを組み合わせた細粒度最適化手法であるJAQ損失を提案します。JAQは参照不要で、わずかなキャリブレーションプロンプトのみを必要とし、キャリブレーション中の完全精度推論を回避します。Q-Schedは、FP16 4ステップのLatent Consistency Modelに対して15.5%、FP16 8ステップのPhased Consistency Modelに対して16.6%のFID改善をもたらし、量子化と少ステップ蒸留が高忠実度生成において補完的であることを示しています。80,000以上のアノテーションを伴う大規模なユーザー調査により、Q-SchedがFLUX.1[schnell]とSDXL-Turboの両方で有効であることがさらに確認されました。
English
Text-to-image diffusion models are computationally intensive, often requiring
dozens of forward passes through large transformer backbones. For instance,
Stable Diffusion XL generates high-quality images with 50 evaluations of a
2.6B-parameter model, an expensive process even for a single batch. Few-step
diffusion models reduce this cost to 2-8 denoising steps but still depend on
large, uncompressed U-Net or diffusion transformer backbones, which are often
too costly for full-precision inference without datacenter GPUs. These
requirements also limit existing post-training quantization methods that rely
on full-precision calibration. We introduce Q-Sched, a new paradigm for
post-training quantization that modifies the diffusion model scheduler rather
than model weights. By adjusting the few-step sampling trajectory, Q-Sched
achieves full-precision accuracy with a 4x reduction in model size. To learn
quantization-aware pre-conditioning coefficients, we propose the JAQ loss,
which combines text-image compatibility with an image quality metric for
fine-grained optimization. JAQ is reference-free and requires only a handful of
calibration prompts, avoiding full-precision inference during calibration.
Q-Sched delivers substantial gains: a 15.5% FID improvement over the FP16
4-step Latent Consistency Model and a 16.6% improvement over the FP16 8-step
Phased Consistency Model, showing that quantization and few-step distillation
are complementary for high-fidelity generation. A large-scale user study with
more than 80,000 annotations further confirms Q-Sched's effectiveness on both
FLUX.1[schnell] and SDXL-Turbo.