ChatPaper.aiChatPaper

Q-Sched : Repousser les limites des modèles de diffusion à quelques étapes avec une planification sensible à la quantification

Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling

September 1, 2025
papers.authors: Natalia Frumkin, Diana Marculescu
cs.AI

papers.abstract

Les modèles de diffusion texte-image sont intensifs en calcul, nécessitant souvent des dizaines de passes avant à travers de larges architectures de type transformer. Par exemple, Stable Diffusion XL génère des images de haute qualité avec 50 évaluations d'un modèle de 2,6 milliards de paramètres, un processus coûteux même pour un seul lot. Les modèles de diffusion à quelques étapes réduisent ce coût à 2-8 étapes de débruitage, mais dépendent toujours de larges architectures U-Net ou de transformers de diffusion non compressées, souvent trop coûteuses pour une inférence en pleine précision sans GPU de datacenter. Ces exigences limitent également les méthodes existantes de quantification post-entraînement qui reposent sur un étalonnage en pleine précision. Nous introduisons Q-Sched, un nouveau paradigme pour la quantification post-entraînement qui modifie le planificateur du modèle de diffusion plutôt que les poids du modèle. En ajustant la trajectoire d'échantillonnage à quelques étapes, Q-Sched atteint une précision équivalente à la pleine précision avec une réduction de 4x de la taille du modèle. Pour apprendre les coefficients de pré-conditionnement conscients de la quantification, nous proposons la perte JAQ, qui combine la compatibilité texte-image avec une métrique de qualité d'image pour une optimisation fine. JAQ est sans référence et ne nécessite qu'une poignée d'invites d'étalonnage, évitant l'inférence en pleine précision pendant l'étalonnage. Q-Sched offre des gains substantiels : une amélioration de 15,5% du FID par rapport au modèle de cohérence latente à 4 étapes en FP16 et une amélioration de 16,6% par rapport au modèle de cohérence phasée à 8 étapes en FP16, montrant que la quantification et la distillation à quelques étapes sont complémentaires pour une génération haute fidélité. Une étude utilisateur à grande échelle avec plus de 80 000 annotations confirme en outre l'efficacité de Q-Sched sur FLUX.1[schnell] et SDXL-Turbo.
English
Text-to-image diffusion models are computationally intensive, often requiring dozens of forward passes through large transformer backbones. For instance, Stable Diffusion XL generates high-quality images with 50 evaluations of a 2.6B-parameter model, an expensive process even for a single batch. Few-step diffusion models reduce this cost to 2-8 denoising steps but still depend on large, uncompressed U-Net or diffusion transformer backbones, which are often too costly for full-precision inference without datacenter GPUs. These requirements also limit existing post-training quantization methods that rely on full-precision calibration. We introduce Q-Sched, a new paradigm for post-training quantization that modifies the diffusion model scheduler rather than model weights. By adjusting the few-step sampling trajectory, Q-Sched achieves full-precision accuracy with a 4x reduction in model size. To learn quantization-aware pre-conditioning coefficients, we propose the JAQ loss, which combines text-image compatibility with an image quality metric for fine-grained optimization. JAQ is reference-free and requires only a handful of calibration prompts, avoiding full-precision inference during calibration. Q-Sched delivers substantial gains: a 15.5% FID improvement over the FP16 4-step Latent Consistency Model and a 16.6% improvement over the FP16 8-step Phased Consistency Model, showing that quantization and few-step distillation are complementary for high-fidelity generation. A large-scale user study with more than 80,000 annotations further confirms Q-Sched's effectiveness on both FLUX.1[schnell] and SDXL-Turbo.
PDF62September 10, 2025