ChatPaper.aiChatPaper

SANA-Sprint: Одношаговая диффузия с непрерывной согласованностью во времени через дистилляцию

SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation

March 12, 2025
Авторы: Junsong Chen, Shuchen Xue, Yuyang Zhao, Jincheng Yu, Sayak Paul, Junyu Chen, Han Cai, Enze Xie, Song Han
cs.AI

Аннотация

В данной статье представлена модель SANA-Sprint, эффективная диффузионная модель для сверхбыстрого преобразования текста в изображение (T2I). SANA-Sprint построена на предварительно обученной базовой модели и дополнена гибридной дистилляцией, что значительно сокращает количество шагов вывода с 20 до 1-4. Мы предлагаем три ключевых инновации: (1) Мы предлагаем подход, не требующий обучения, который преобразует предварительно обученную модель flow-matching для дистилляции непрерывной временной согласованности (sCM), устраняя необходимость дорогостоящего обучения с нуля и обеспечивая высокую эффективность обучения. Наша гибридная стратегия дистилляции сочетает sCM с латентной адверсарной дистилляцией (LADD): sCM обеспечивает согласованность с учительской моделью, а LADD повышает точность генерации в один шаг. (2) SANA-Sprint представляет собой унифицированную модель с адаптивным шагом, которая обеспечивает высококачественную генерацию за 1-4 шага, устраняя необходимость обучения для конкретных шагов и повышая эффективность. (3) Мы интегрируем ControlNet с SANA-Sprint для генерации изображений в реальном времени с интерактивным взаимодействием, что позволяет мгновенно получать визуальную обратную связь для взаимодействия с пользователем. SANA-Sprint устанавливает новый парето-фронт в компромиссе между скоростью и качеством, достигая передовых показателей с 7.59 FID и 0.74 GenEval всего за 1 шаг — превосходя FLUX-schnell (7.94 FID / 0.71 GenEval) при 10-кратном увеличении скорости (0.1с против 1.1с на H100). Модель также демонстрирует задержку 0.1с (T2I) и 0.25с (ControlNet) для изображений 1024 x 1024 на H100 и 0.31с (T2I) на RTX 4090, что подчеркивает её исключительную эффективность и потенциал для потребительских приложений с искусственным интеллектом (AIPC). Код и предварительно обученные модели будут опубликованы в открытом доступе.
English
This paper presents SANA-Sprint, an efficient diffusion model for ultra-fast text-to-image (T2I) generation. SANA-Sprint is built on a pre-trained foundation model and augmented with hybrid distillation, dramatically reducing inference steps from 20 to 1-4. We introduce three key innovations: (1) We propose a training-free approach that transforms a pre-trained flow-matching model for continuous-time consistency distillation (sCM), eliminating costly training from scratch and achieving high training efficiency. Our hybrid distillation strategy combines sCM with latent adversarial distillation (LADD): sCM ensures alignment with the teacher model, while LADD enhances single-step generation fidelity. (2) SANA-Sprint is a unified step-adaptive model that achieves high-quality generation in 1-4 steps, eliminating step-specific training and improving efficiency. (3) We integrate ControlNet with SANA-Sprint for real-time interactive image generation, enabling instant visual feedback for user interaction. SANA-Sprint establishes a new Pareto frontier in speed-quality tradeoffs, achieving state-of-the-art performance with 7.59 FID and 0.74 GenEval in only 1 step - outperforming FLUX-schnell (7.94 FID / 0.71 GenEval) while being 10x faster (0.1s vs 1.1s on H100). It also achieves 0.1s (T2I) and 0.25s (ControlNet) latency for 1024 x 1024 images on H100, and 0.31s (T2I) on an RTX 4090, showcasing its exceptional efficiency and potential for AI-powered consumer applications (AIPC). Code and pre-trained models will be open-sourced.

Summary

AI-Generated Summary

PDF374March 14, 2025