ChatPaper.aiChatPaper

Q-Sched: Expandindo os Limites dos Modelos de Difusão com Poucos Passos por meio de Escalonamento Consciente de Quantização

Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling

September 1, 2025
Autores: Natalia Frumkin, Diana Marculescu
cs.AI

Resumo

Modelos de difusão texto-imagem são computacionalmente intensivos, frequentemente exigindo dezenas de passagens diretas por backbones grandes de transformers. Por exemplo, o Stable Diffusion XL gera imagens de alta qualidade com 50 avaliações de um modelo de 2,6 bilhões de parâmetros, um processo caro mesmo para um único lote. Modelos de difusão com poucos passos reduzem esse custo para 2-8 etapas de remoção de ruído, mas ainda dependem de backbones grandes e não compactados de U-Net ou transformers de difusão, que geralmente são muito custosos para inferência em precisão total sem GPUs de datacenter. Esses requisitos também limitam os métodos existentes de quantização pós-treinamento que dependem de calibração em precisão total. Introduzimos o Q-Sched, um novo paradigma para quantização pós-treinamento que modifica o agendador do modelo de difusão em vez dos pesos do modelo. Ao ajustar a trajetória de amostragem de poucos passos, o Q-Sched alcança precisão total com uma redução de 4x no tamanho do modelo. Para aprender coeficientes de pré-condicionamento conscientes da quantização, propomos a perda JAQ, que combina compatibilidade texto-imagem com uma métrica de qualidade de imagem para otimização refinada. A JAQ é livre de referência e requer apenas um punhado de prompts de calibração, evitando inferência em precisão total durante a calibração. O Q-Sched oferece ganhos substanciais: uma melhoria de 15,5% no FID em relação ao Modelo de Consistência Latente de 4 passos em FP16 e uma melhoria de 16,6% em relação ao Modelo de Consistência Faseada de 8 passos em FP16, mostrando que a quantização e a destilação de poucos passos são complementares para geração de alta fidelidade. Um estudo de usuários em larga escala com mais de 80.000 anotações confirma ainda mais a eficácia do Q-Sched tanto no FLUX.1[schnell] quanto no SDXL-Turbo.
English
Text-to-image diffusion models are computationally intensive, often requiring dozens of forward passes through large transformer backbones. For instance, Stable Diffusion XL generates high-quality images with 50 evaluations of a 2.6B-parameter model, an expensive process even for a single batch. Few-step diffusion models reduce this cost to 2-8 denoising steps but still depend on large, uncompressed U-Net or diffusion transformer backbones, which are often too costly for full-precision inference without datacenter GPUs. These requirements also limit existing post-training quantization methods that rely on full-precision calibration. We introduce Q-Sched, a new paradigm for post-training quantization that modifies the diffusion model scheduler rather than model weights. By adjusting the few-step sampling trajectory, Q-Sched achieves full-precision accuracy with a 4x reduction in model size. To learn quantization-aware pre-conditioning coefficients, we propose the JAQ loss, which combines text-image compatibility with an image quality metric for fine-grained optimization. JAQ is reference-free and requires only a handful of calibration prompts, avoiding full-precision inference during calibration. Q-Sched delivers substantial gains: a 15.5% FID improvement over the FP16 4-step Latent Consistency Model and a 16.6% improvement over the FP16 8-step Phased Consistency Model, showing that quantization and few-step distillation are complementary for high-fidelity generation. A large-scale user study with more than 80,000 annotations further confirms Q-Sched's effectiveness on both FLUX.1[schnell] and SDXL-Turbo.
PDF72September 10, 2025