ChatPaper.aiChatPaper

SD3.5-Flash: 생성적 흐름의 분포 기반 가이드 증류

SD3.5-Flash: Distribution-Guided Distillation of Generative Flows

September 25, 2025
저자: Hmrishav Bandyopadhyay, Rahim Entezari, Jim Scott, Reshinth Adithyan, Yi-Zhe Song, Varun Jampani
cs.AI

초록

우리는 고품질 이미지 생성을 접근 가능한 소비자 기기로 가져오는 효율적인 소수 스텝 증류 프레임워크인 SD3.5-Flash를 소개합니다. 우리의 접근 방식은 계산적으로 부담이 큰 정류 흐름(rectified flow) 모델을 소수 스텝 생성에 특화된 재구성된 분포 매칭 목표를 통해 증류합니다. 우리는 두 가지 주요 혁신을 도입했습니다: 그래디언트 노이즈를 줄이기 위한 "타임스텝 공유(timestep sharing)"와 프롬프트 정렬을 개선하기 위한 "분할 타임스텝 미세 조정(split-timestep fine-tuning)"입니다. 텍스트 인코더 재구성 및 특수 양자화와 같은 포괄적인 파이프라인 최적화와 결합하여, 우리의 시스템은 다양한 하드웨어 구성에서 빠른 생성과 메모리 효율적인 배포를 가능하게 합니다. 이를 통해 모바일 폰부터 데스크톱 컴퓨터에 이르기까지 모든 기기에서의 접근성을 민주화합니다. 대규모 사용자 연구를 포함한 광범위한 평가를 통해, SD3.5-Flash가 기존의 소수 스텝 방법들을 지속적으로 능가하며, 실질적인 배포를 위한 고급 생성 AI를 진정으로 접근 가능하게 만드는 것을 입증합니다.
English
We present SD3.5-Flash, an efficient few-step distillation framework that brings high-quality image generation to accessible consumer devices. Our approach distills computationally prohibitive rectified flow models through a reformulated distribution matching objective tailored specifically for few-step generation. We introduce two key innovations: "timestep sharing" to reduce gradient noise and "split-timestep fine-tuning" to improve prompt alignment. Combined with comprehensive pipeline optimizations like text encoder restructuring and specialized quantization, our system enables both rapid generation and memory-efficient deployment across different hardware configurations. This democratizes access across the full spectrum of devices, from mobile phones to desktop computers. Through extensive evaluation including large-scale user studies, we demonstrate that SD3.5-Flash consistently outperforms existing few-step methods, making advanced generative AI truly accessible for practical deployment.
PDF92September 26, 2025