ChatPaper.aiChatPaper

SnapGen++: De Kracht van Diffusion Transformers Vrijmaken voor Efficiënte Beeldgeneratie van Hoge Kwaliteit op Edge-apparaten

SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices

January 13, 2026
Auteurs: Dongting Hu, Aarush Gupta, Magzhan Gabidolla, Arpit Sahni, Huseyin Coskun, Yanyu Li, Yerlan Idelbayev, Ahsan Mahmood, Aleksei Lebedev, Dishani Lahiri, Anujraaj Goyal, Ju Hu, Mingming Gong, Sergey Tulyakov, Anil Kag
cs.AI

Samenvatting

Recente vooruitgang in diffusie-transformers (DiT's) heeft nieuwe standaarden gezet voor beeldgeneratie, maar blijft onpraktisch voor implementatie op apparaten vanwege de hoge computationele en geheugenkosten. In dit werk presenteren we een efficiënt DiT-raamwerk, afgestemd op mobiele en edge-apparaten, dat de generatiekwaliteit van transformers bereikt onder strikte resourcebeperkingen. Ons ontwerp combineert drie kernelementen. Ten eerste stellen we een compacte DiT-architectuur voor met een adaptief globaal-lokaal sparse attention-mechanisme dat globale contextmodellering en lokale detailbewaring in evenwicht brengt. Ten tweede introduceren we een elastisch trainingsraamwerk dat sub-DiT's van uiteenlopende capaciteiten gezamenlijk optimaliseert binnen een uniform supernetwerk, waardoor een enkel model zich dynamisch kan aanpassen voor efficiënte inferentie op verschillende hardware. Tot slot ontwikkelen we Knowledge-Guided Distribution Matching Distillation, een stap-distillatiepijplijn die het DMD-doel integreert met kennistransfer van few-step teacher-modellen, wat resulteert in hoogwaardige en latentiearme generatie (bijvoorbeeld in 4 stappen) die geschikt is voor real-time gebruik op apparaten. Gezamenlijk maken deze bijdragen schaalbare, efficiënte en hoogkwalitatieve diffusiemodellen mogelijk voor implementatie op diverse hardware.
English
Recent advances in diffusion transformers (DiTs) have set new standards in image generation, yet remain impractical for on-device deployment due to their high computational and memory costs. In this work, we present an efficient DiT framework tailored for mobile and edge devices that achieves transformer-level generation quality under strict resource constraints. Our design combines three key components. First, we propose a compact DiT architecture with an adaptive global-local sparse attention mechanism that balances global context modeling and local detail preservation. Second, we propose an elastic training framework that jointly optimizes sub-DiTs of varying capacities within a unified supernetwork, allowing a single model to dynamically adjust for efficient inference across different hardware. Finally, we develop Knowledge-Guided Distribution Matching Distillation, a step-distillation pipeline that integrates the DMD objective with knowledge transfer from few-step teacher models, producing high-fidelity and low-latency generation (e.g., 4-step) suitable for real-time on-device use. Together, these contributions enable scalable, efficient, and high-quality diffusion models for deployment on diverse hardware.
PDF71January 15, 2026