SnapGen++: 에지 기기에서 효율적인 고화질 이미지 생성을 위한 Diffusion Transformer의 잠재력 발휘
SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices
January 13, 2026
저자: Dongting Hu, Aarush Gupta, Magzhan Gabidolla, Arpit Sahni, Huseyin Coskun, Yanyu Li, Yerlan Idelbayev, Ahsan Mahmood, Aleksei Lebedev, Dishani Lahiri, Anujraaj Goyal, Ju Hu, Mingming Gong, Sergey Tulyakov, Anil Kag
cs.AI
초록
디퓨전 트랜스포머(DiT)의 최근 발전은 이미지 생성 분야에서 새로운 기준을 제시했지만, 높은 컴퓨팅 및 메모리 비용으로 인해 온디바이스 배치에는 여전히 실용적이지 않습니다. 본 연구에서는 엄격한 자원 제약 하에서도 트랜스포머 수준의 생성 품질을 달성하는 모바일 및 엣지 디바이스용 효율적인 DiT 프레임워크를 제안합니다. 우리의 설계는 세 가지 핵심 구성 요소를 결합합니다. 첫째, 전역 콘텍스트 모델링과 지역적 세부 사항 보존 간의 균형을 맞추는 적응형 전역-지역 희소 어텐션 메커니즘을 갖춘 컴팩트한 DiT 아키텍처를 제안합니다. 둘째, 통합 슈퍼네트워크 내에서 다양한 성능을 지닌 하위 DiT들을 공동으로 최적화하는 탄력적 학습 프레임워크를 제안하여 단일 모델이 다양한 하드웨어에서 효율적인 추론을 위해 동적으로 조정될 수 있도록 합니다. 마지막으로, DMD 목적 함수와 Few-Step 교사 모델의 지식 전이를 통합하는 단계별 지식 증류 파이프라인인 Knowledge-Guided Distribution Matching Distillation을 개발하여 실시간 온디바이스 사용에 적합한 고품질 저지연 생성(예: 4-스텝)을 가능하게 합니다. 이러한 기여들을 종합하면 다양한 하드웨어에 배치 가능한 확장성 있고 효율적이며 고품질의 디퓨전 모델을 구현할 수 있습니다.
English
Recent advances in diffusion transformers (DiTs) have set new standards in image generation, yet remain impractical for on-device deployment due to their high computational and memory costs. In this work, we present an efficient DiT framework tailored for mobile and edge devices that achieves transformer-level generation quality under strict resource constraints. Our design combines three key components. First, we propose a compact DiT architecture with an adaptive global-local sparse attention mechanism that balances global context modeling and local detail preservation. Second, we propose an elastic training framework that jointly optimizes sub-DiTs of varying capacities within a unified supernetwork, allowing a single model to dynamically adjust for efficient inference across different hardware. Finally, we develop Knowledge-Guided Distribution Matching Distillation, a step-distillation pipeline that integrates the DMD objective with knowledge transfer from few-step teacher models, producing high-fidelity and low-latency generation (e.g., 4-step) suitable for real-time on-device use. Together, these contributions enable scalable, efficient, and high-quality diffusion models for deployment on diverse hardware.