ChatPaper.aiChatPaper

SANA-Sprint : Diffusion en une étape avec distillation de cohérence en temps continu

SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation

March 12, 2025
Auteurs: Junsong Chen, Shuchen Xue, Yuyang Zhao, Jincheng Yu, Sayak Paul, Junyu Chen, Han Cai, Enze Xie, Song Han
cs.AI

Résumé

Cet article présente SANA-Sprint, un modèle de diffusion efficace pour la génération ultra-rapide d'images à partir de texte (T2I). SANA-Sprint est construit sur un modèle de base pré-entraîné et enrichi par une distillation hybride, réduisant considérablement le nombre d'étapes d'inférence de 20 à 1-4. Nous introduisons trois innovations clés : (1) Nous proposons une approche sans entraînement qui transforme un modèle de correspondance de flux pré-entraîné pour la distillation de cohérence en temps continu (sCM), éliminant ainsi le coûteux entraînement à partir de zéro et atteignant une grande efficacité d'entraînement. Notre stratégie de distillation hybride combine sCM avec la distillation adversariale latente (LADD) : sCM assure l'alignement avec le modèle enseignant, tandis que LADD améliore la fidélité de la génération en une seule étape. (2) SANA-Sprint est un modèle unifié adaptatif par étapes qui réalise une génération de haute qualité en 1-4 étapes, éliminant l'entraînement spécifique à chaque étape et améliorant l'efficacité. (3) Nous intégrons ControlNet à SANA-Sprint pour la génération d'images interactive en temps réel, permettant un retour visuel instantané pour l'interaction utilisateur. SANA-Sprint établit une nouvelle frontière de Pareto dans les compromis vitesse-qualité, atteignant des performances de pointe avec 7,59 FID et 0,74 GenEval en seulement 1 étape - surpassant FLUX-schnell (7,94 FID / 0,71 GenEval) tout en étant 10 fois plus rapide (0,1s contre 1,1s sur H100). Il atteint également une latence de 0,1s (T2I) et 0,25s (ControlNet) pour des images de 1024 x 1024 sur H100, et 0,31s (T2I) sur une RTX 4090, démontrant son efficacité exceptionnelle et son potentiel pour les applications grand public alimentées par l'IA (AIPC). Le code et les modèles pré-entraînés seront rendus open-source.
English
This paper presents SANA-Sprint, an efficient diffusion model for ultra-fast text-to-image (T2I) generation. SANA-Sprint is built on a pre-trained foundation model and augmented with hybrid distillation, dramatically reducing inference steps from 20 to 1-4. We introduce three key innovations: (1) We propose a training-free approach that transforms a pre-trained flow-matching model for continuous-time consistency distillation (sCM), eliminating costly training from scratch and achieving high training efficiency. Our hybrid distillation strategy combines sCM with latent adversarial distillation (LADD): sCM ensures alignment with the teacher model, while LADD enhances single-step generation fidelity. (2) SANA-Sprint is a unified step-adaptive model that achieves high-quality generation in 1-4 steps, eliminating step-specific training and improving efficiency. (3) We integrate ControlNet with SANA-Sprint for real-time interactive image generation, enabling instant visual feedback for user interaction. SANA-Sprint establishes a new Pareto frontier in speed-quality tradeoffs, achieving state-of-the-art performance with 7.59 FID and 0.74 GenEval in only 1 step - outperforming FLUX-schnell (7.94 FID / 0.71 GenEval) while being 10x faster (0.1s vs 1.1s on H100). It also achieves 0.1s (T2I) and 0.25s (ControlNet) latency for 1024 x 1024 images on H100, and 0.31s (T2I) on an RTX 4090, showcasing its exceptional efficiency and potential for AI-powered consumer applications (AIPC). Code and pre-trained models will be open-sourced.

Summary

AI-Generated Summary

PDF374March 14, 2025