ChatPaper.aiChatPaper

Q-Sched: Llevando los Límites de los Modelos de Difusión de Pocos Pasos con Planificación Consciente de la Cuantización

Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling

September 1, 2025
Autores: Natalia Frumkin, Diana Marculescu
cs.AI

Resumen

Los modelos de difusión de texto a imagen son computacionalmente intensivos, requiriendo a menudo docenas de pasos hacia adelante a través de grandes arquitecturas basadas en transformadores. Por ejemplo, Stable Diffusion XL genera imágenes de alta calidad con 50 evaluaciones de un modelo de 2.600 millones de parámetros, un proceso costoso incluso para un solo lote. Los modelos de difusión de pocos pasos reducen este costo a 2-8 pasos de eliminación de ruido, pero aún dependen de grandes arquitecturas U-Net o transformadores de difusión sin comprimir, que suelen ser demasiado costosas para inferencia en precisión completa sin GPUs de centros de datos. Estos requisitos también limitan los métodos existentes de cuantización post-entrenamiento que dependen de calibración en precisión completa. Introducimos Q-Sched, un nuevo paradigma para la cuantización post-entrenamiento que modifica el planificador del modelo de difusión en lugar de los pesos del modelo. Al ajustar la trayectoria de muestreo de pocos pasos, Q-Sched logra precisión completa con una reducción de 4 veces en el tamaño del modelo. Para aprender coeficientes de precondicionamiento conscientes de la cuantización, proponemos la pérdida JAQ, que combina la compatibilidad texto-imagen con una métrica de calidad de imagen para una optimización detallada. JAQ no requiere referencias y necesita solo un puñado de indicaciones de calibración, evitando la inferencia en precisión completa durante la calibración. Q-Sched ofrece mejoras sustanciales: un 15,5% de mejora en FID sobre el Modelo de Consistencia Latente de 4 pasos en FP16 y un 16,6% de mejora sobre el Modelo de Consistencia Faseada de 8 pasos en FP16, demostrando que la cuantización y la destilación de pocos pasos son complementarias para la generación de alta fidelidad. Un estudio de usuario a gran escala con más de 80.000 anotaciones confirma además la efectividad de Q-Sched tanto en FLUX.1[schnell] como en SDXL-Turbo.
English
Text-to-image diffusion models are computationally intensive, often requiring dozens of forward passes through large transformer backbones. For instance, Stable Diffusion XL generates high-quality images with 50 evaluations of a 2.6B-parameter model, an expensive process even for a single batch. Few-step diffusion models reduce this cost to 2-8 denoising steps but still depend on large, uncompressed U-Net or diffusion transformer backbones, which are often too costly for full-precision inference without datacenter GPUs. These requirements also limit existing post-training quantization methods that rely on full-precision calibration. We introduce Q-Sched, a new paradigm for post-training quantization that modifies the diffusion model scheduler rather than model weights. By adjusting the few-step sampling trajectory, Q-Sched achieves full-precision accuracy with a 4x reduction in model size. To learn quantization-aware pre-conditioning coefficients, we propose the JAQ loss, which combines text-image compatibility with an image quality metric for fine-grained optimization. JAQ is reference-free and requires only a handful of calibration prompts, avoiding full-precision inference during calibration. Q-Sched delivers substantial gains: a 15.5% FID improvement over the FP16 4-step Latent Consistency Model and a 16.6% improvement over the FP16 8-step Phased Consistency Model, showing that quantization and few-step distillation are complementary for high-fidelity generation. A large-scale user study with more than 80,000 annotations further confirms Q-Sched's effectiveness on both FLUX.1[schnell] and SDXL-Turbo.
PDF62September 10, 2025