SnapGen++ : Libérer la puissance des Transformers de Diffusion pour une génération d'images haute fidélité et efficace sur les appareils périphériques
SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices
January 13, 2026
papers.authors: Dongting Hu, Aarush Gupta, Magzhan Gabidolla, Arpit Sahni, Huseyin Coskun, Yanyu Li, Yerlan Idelbayev, Ahsan Mahmood, Aleksei Lebedev, Dishani Lahiri, Anujraaj Goyal, Ju Hu, Mingming Gong, Sergey Tulyakov, Anil Kag
cs.AI
papers.abstract
Les récents progrès des transformers de diffusion (DiTs) ont établi de nouveaux standards en génération d'images, mais restent impraticables pour un déploiement sur appareil en raison de leurs coûts de calcul et de mémoire élevés. Dans ce travail, nous présentons un cadre DiT efficace conçu pour les appareils mobiles et périphériques, qui atteint une qualité de génération équivalente aux transformers sous des contraintes strictes de ressources. Notre conception combine trois éléments clés. Premièrement, nous proposons une architecture DiT compacte avec un mécanisme d'attention éparse globale-locale adaptative qui équilibre la modélisation du contexte global et la préservation des détails locaux. Deuxièmement, nous proposons un cadre d'entraînement élastique qui optimise conjointement des sous-DiTs de capacités variables au sein d'un super-réseau unifié, permettant à un modèle unique de s'ajuster dynamiquement pour une inférence efficace sur différents matériels. Enfin, nous développons la distillation par appariement de distributions guidée par la connaissance, un pipeline de distillation par étapes qui intègre l'objectif DMD avec un transfert de connaissance depuis des modèles enseignants à faible nombre d'étapes, produisant une génération haute fidélité et à faible latence (par exemple, 4 étapes) adaptée à une utilisation en temps réel sur appareil. Ensemble, ces contributions permettent des modèles de diffusion évolutifs, efficaces et de haute qualité pour un déploiement sur divers matériels.
English
Recent advances in diffusion transformers (DiTs) have set new standards in image generation, yet remain impractical for on-device deployment due to their high computational and memory costs. In this work, we present an efficient DiT framework tailored for mobile and edge devices that achieves transformer-level generation quality under strict resource constraints. Our design combines three key components. First, we propose a compact DiT architecture with an adaptive global-local sparse attention mechanism that balances global context modeling and local detail preservation. Second, we propose an elastic training framework that jointly optimizes sub-DiTs of varying capacities within a unified supernetwork, allowing a single model to dynamically adjust for efficient inference across different hardware. Finally, we develop Knowledge-Guided Distribution Matching Distillation, a step-distillation pipeline that integrates the DMD objective with knowledge transfer from few-step teacher models, producing high-fidelity and low-latency generation (e.g., 4-step) suitable for real-time on-device use. Together, these contributions enable scalable, efficient, and high-quality diffusion models for deployment on diverse hardware.