ChatPaper.aiChatPaper

SANA-Sprint: Difusión en un solo paso con destilación de consistencia en tiempo continuo

SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation

March 12, 2025
Autores: Junsong Chen, Shuchen Xue, Yuyang Zhao, Jincheng Yu, Sayak Paul, Junyu Chen, Han Cai, Enze Xie, Song Han
cs.AI

Resumen

Este artículo presenta SANA-Sprint, un modelo de difusión eficiente para la generación ultrarrápida de imágenes a partir de texto (T2I). SANA-Sprint se basa en un modelo base preentrenado y se mejora con destilación híbrida, reduciendo drásticamente los pasos de inferencia de 20 a 1-4. Introducimos tres innovaciones clave: (1) Proponemos un enfoque sin entrenamiento que transforma un modelo preentrenado de emparejamiento de flujos para destilación de consistencia en tiempo continuo (sCM), eliminando el costoso entrenamiento desde cero y logrando una alta eficiencia en el entrenamiento. Nuestra estrategia de destilación híbrida combina sCM con destilación adversaria latente (LADD): sCM asegura la alineación con el modelo maestro, mientras que LADD mejora la fidelidad en la generación de un solo paso. (2) SANA-Sprint es un modelo unificado adaptable a pasos que logra una generación de alta calidad en 1-4 pasos, eliminando el entrenamiento específico por paso y mejorando la eficiencia. (3) Integramos ControlNet con SANA-Sprint para la generación interactiva de imágenes en tiempo real, permitiendo una retroalimentación visual instantánea para la interacción del usuario. SANA-Sprint establece una nueva frontera de Pareto en el equilibrio entre velocidad y calidad, logrando un rendimiento de vanguardia con 7.59 FID y 0.74 GenEval en solo 1 paso, superando a FLUX-schnell (7.94 FID / 0.71 GenEval) mientras es 10 veces más rápido (0.1s vs 1.1s en H100). También alcanza latencias de 0.1s (T2I) y 0.25s (ControlNet) para imágenes de 1024 x 1024 en H100, y 0.31s (T2I) en una RTX 4090, demostrando su excepcional eficiencia y potencial para aplicaciones de consumo impulsadas por IA (AIPC). El código y los modelos preentrenados se publicarán como código abierto.
English
This paper presents SANA-Sprint, an efficient diffusion model for ultra-fast text-to-image (T2I) generation. SANA-Sprint is built on a pre-trained foundation model and augmented with hybrid distillation, dramatically reducing inference steps from 20 to 1-4. We introduce three key innovations: (1) We propose a training-free approach that transforms a pre-trained flow-matching model for continuous-time consistency distillation (sCM), eliminating costly training from scratch and achieving high training efficiency. Our hybrid distillation strategy combines sCM with latent adversarial distillation (LADD): sCM ensures alignment with the teacher model, while LADD enhances single-step generation fidelity. (2) SANA-Sprint is a unified step-adaptive model that achieves high-quality generation in 1-4 steps, eliminating step-specific training and improving efficiency. (3) We integrate ControlNet with SANA-Sprint for real-time interactive image generation, enabling instant visual feedback for user interaction. SANA-Sprint establishes a new Pareto frontier in speed-quality tradeoffs, achieving state-of-the-art performance with 7.59 FID and 0.74 GenEval in only 1 step - outperforming FLUX-schnell (7.94 FID / 0.71 GenEval) while being 10x faster (0.1s vs 1.1s on H100). It also achieves 0.1s (T2I) and 0.25s (ControlNet) latency for 1024 x 1024 images on H100, and 0.31s (T2I) on an RTX 4090, showcasing its exceptional efficiency and potential for AI-powered consumer applications (AIPC). Code and pre-trained models will be open-sourced.

Summary

AI-Generated Summary

PDF374March 14, 2025