Q-Sched : Repousser les limites des modèles de diffusion à quelques étapes avec une planification sensible à la quantification
Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling
September 1, 2025
papers.authors: Natalia Frumkin, Diana Marculescu
cs.AI
papers.abstract
Les modèles de diffusion texte-image sont intensifs en calcul, nécessitant souvent des dizaines de passes avant à travers de larges architectures de type transformer. Par exemple, Stable Diffusion XL génère des images de haute qualité avec 50 évaluations d'un modèle de 2,6 milliards de paramètres, un processus coûteux même pour un seul lot. Les modèles de diffusion à quelques étapes réduisent ce coût à 2-8 étapes de débruitage, mais dépendent toujours de larges architectures U-Net ou de transformers de diffusion non compressées, souvent trop coûteuses pour une inférence en pleine précision sans GPU de datacenter. Ces exigences limitent également les méthodes existantes de quantification post-entraînement qui reposent sur un étalonnage en pleine précision. Nous introduisons Q-Sched, un nouveau paradigme pour la quantification post-entraînement qui modifie le planificateur du modèle de diffusion plutôt que les poids du modèle. En ajustant la trajectoire d'échantillonnage à quelques étapes, Q-Sched atteint une précision équivalente à la pleine précision avec une réduction de 4x de la taille du modèle. Pour apprendre les coefficients de pré-conditionnement conscients de la quantification, nous proposons la perte JAQ, qui combine la compatibilité texte-image avec une métrique de qualité d'image pour une optimisation fine. JAQ est sans référence et ne nécessite qu'une poignée d'invites d'étalonnage, évitant l'inférence en pleine précision pendant l'étalonnage. Q-Sched offre des gains substantiels : une amélioration de 15,5% du FID par rapport au modèle de cohérence latente à 4 étapes en FP16 et une amélioration de 16,6% par rapport au modèle de cohérence phasée à 8 étapes en FP16, montrant que la quantification et la distillation à quelques étapes sont complémentaires pour une génération haute fidélité. Une étude utilisateur à grande échelle avec plus de 80 000 annotations confirme en outre l'efficacité de Q-Sched sur FLUX.1[schnell] et SDXL-Turbo.
English
Text-to-image diffusion models are computationally intensive, often requiring
dozens of forward passes through large transformer backbones. For instance,
Stable Diffusion XL generates high-quality images with 50 evaluations of a
2.6B-parameter model, an expensive process even for a single batch. Few-step
diffusion models reduce this cost to 2-8 denoising steps but still depend on
large, uncompressed U-Net or diffusion transformer backbones, which are often
too costly for full-precision inference without datacenter GPUs. These
requirements also limit existing post-training quantization methods that rely
on full-precision calibration. We introduce Q-Sched, a new paradigm for
post-training quantization that modifies the diffusion model scheduler rather
than model weights. By adjusting the few-step sampling trajectory, Q-Sched
achieves full-precision accuracy with a 4x reduction in model size. To learn
quantization-aware pre-conditioning coefficients, we propose the JAQ loss,
which combines text-image compatibility with an image quality metric for
fine-grained optimization. JAQ is reference-free and requires only a handful of
calibration prompts, avoiding full-precision inference during calibration.
Q-Sched delivers substantial gains: a 15.5% FID improvement over the FP16
4-step Latent Consistency Model and a 16.6% improvement over the FP16 8-step
Phased Consistency Model, showing that quantization and few-step distillation
are complementary for high-fidelity generation. A large-scale user study with
more than 80,000 annotations further confirms Q-Sched's effectiveness on both
FLUX.1[schnell] and SDXL-Turbo.