텍스트-이미지 생성을 위한 소수 단계 증류: 실용 가이드
Few-Step Distillation for Text-to-Image Generation: A Practical Guide
December 15, 2025
저자: Yifan Pu, Yizeng Han, Zhiwei Tang, Jiasheng Tang, Fan Wang, Bohan Zhuang, Gao Huang
cs.AI
초록
확산 증류는 클래스 조건부 이미지 합성을 극적으로 가속화했지만, 개방형 텍스트-이미지(T2I) 생성에 대한 적용 가능성은 여전히 불분명합니다. 본 연구에서는 강력한 T2I 교사 모델인 FLUX.1-lite에 대해 최신 증류 기법을 적용하고 비교하는 첫 번째 체계적인 연구를 제시합니다. 기존 방법들을 통합 프레임워크로 재구성함으로써, 이산적 클래스 레이블에서 자유 형식 언어 프롬프트로 전환할 때 발생하는 주요 장애요인을 규명합니다. 철저한 방법론적 분석을 넘어, 입력 스케일링, 네트워크 아키텍처, 하이퍼파라미터에 대한 실용적인 지침을 오픈소스 구현 및 사전 학습된 학생 모델과 함께 제공합니다. 우리의 연구 결과는 실제 T2I 애플리케이션에서 고속, 고충실도, 자원 효율적인 확산 생성기를 배포하기 위한 견고한 기반을 마련합니다. 코드는 github.com/alibaba-damo-academy/T2I-Distill에서 확인할 수 있습니다.
English
Diffusion distillation has dramatically accelerated class-conditional image synthesis, but its applicability to open-ended text-to-image (T2I) generation is still unclear. We present the first systematic study that adapts and compares state-of-the-art distillation techniques on a strong T2I teacher model, FLUX.1-lite. By casting existing methods into a unified framework, we identify the key obstacles that arise when moving from discrete class labels to free-form language prompts. Beyond a thorough methodological analysis, we offer practical guidelines on input scaling, network architecture, and hyperparameters, accompanied by an open-source implementation and pretrained student models. Our findings establish a solid foundation for deploying fast, high-fidelity, and resource-efficient diffusion generators in real-world T2I applications. Code is available on github.com/alibaba-damo-academy/T2I-Distill.