SANA-Sprint: 연속 시간 일관성 확산을 통한 원스텝 디퓨전
SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation
March 12, 2025
저자: Junsong Chen, Shuchen Xue, Yuyang Zhao, Jincheng Yu, Sayak Paul, Junyu Chen, Han Cai, Enze Xie, Song Han
cs.AI
초록
본 논문은 초고속 텍스트-이미지(T2I) 생성을 위한 효율적인 확산 모델인 SANA-Sprint를 소개합니다. SANA-Sprint는 사전 훈련된 기반 모델을 기반으로 하이브리드 증류 기법을 추가하여 추론 단계를 20단계에서 1-4단계로 획기적으로 줄였습니다. 본 연구에서는 세 가지 주요 혁신을 도입했습니다: (1) 사전 훈련된 흐름 매칭 모델을 연속 시간 일관성 증류(sCM)를 위해 변환하는 훈련 불필요 방식을 제안하여, 처음부터의 고비용 훈련을 제거하고 높은 훈련 효율성을 달성했습니다. 우리의 하이브리드 증류 전략은 sCM과 잠재적 적대적 증류(LADD)를 결합합니다: sCM은 교사 모델과의 정렬을 보장하고, LADD는 단일 단계 생성의 충실도를 향상시킵니다. (2) SANA-Sprint는 1-4단계에서 고품질 생성을 달성하는 통합 단계 적응형 모델로, 단계별 훈련을 제거하고 효율성을 개선했습니다. (3) SANA-Sprint에 ControlNet을 통합하여 실시간 인터랙티브 이미지 생성을 가능하게 하여, 사용자 상호작용에 대한 즉각적인 시각적 피드백을 제공합니다. SANA-Sprint는 속도-품질 트레이드오프에서 새로운 파레토 프론티어를 확립하며, 단 1단계에서 7.59 FID와 0.74 GenEval로 최첨단 성능을 달성했습니다. 이는 FLUX-schnell(7.94 FID / 0.71 GenEval)을 능가하면서도 10배 더 빠른 속도(0.1초 대 1.1초, H100 기준)를 보여줍니다. 또한 H100에서 1024 x 1024 이미지에 대해 0.1초(T2I)와 0.25초(ControlNet)의 지연 시간을, RTX 4090에서 0.31초(T2I)의 지연 시간을 달성하여, AI 기반 소비자 애플리케이션(AIPC)을 위한 탁월한 효율성과 잠재력을 입증했습니다. 코드와 사전 훈련된 모델은 오픈소스로 공개될 예정입니다.
English
This paper presents SANA-Sprint, an efficient diffusion model for ultra-fast
text-to-image (T2I) generation. SANA-Sprint is built on a pre-trained
foundation model and augmented with hybrid distillation, dramatically reducing
inference steps from 20 to 1-4. We introduce three key innovations: (1) We
propose a training-free approach that transforms a pre-trained flow-matching
model for continuous-time consistency distillation (sCM), eliminating costly
training from scratch and achieving high training efficiency. Our hybrid
distillation strategy combines sCM with latent adversarial distillation (LADD):
sCM ensures alignment with the teacher model, while LADD enhances single-step
generation fidelity. (2) SANA-Sprint is a unified step-adaptive model that
achieves high-quality generation in 1-4 steps, eliminating step-specific
training and improving efficiency. (3) We integrate ControlNet with SANA-Sprint
for real-time interactive image generation, enabling instant visual feedback
for user interaction. SANA-Sprint establishes a new Pareto frontier in
speed-quality tradeoffs, achieving state-of-the-art performance with 7.59 FID
and 0.74 GenEval in only 1 step - outperforming FLUX-schnell (7.94 FID / 0.71
GenEval) while being 10x faster (0.1s vs 1.1s on H100). It also achieves 0.1s
(T2I) and 0.25s (ControlNet) latency for 1024 x 1024 images on H100, and 0.31s
(T2I) on an RTX 4090, showcasing its exceptional efficiency and potential for
AI-powered consumer applications (AIPC). Code and pre-trained models will be
open-sourced.Summary
AI-Generated Summary