SnapGen++: Diffusion Transformers für effiziente hochwertige Bildgenerierung auf Edge-Geräten
SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices
January 13, 2026
papers.authors: Dongting Hu, Aarush Gupta, Magzhan Gabidolla, Arpit Sahni, Huseyin Coskun, Yanyu Li, Yerlan Idelbayev, Ahsan Mahmood, Aleksei Lebedev, Dishani Lahiri, Anujraaj Goyal, Ju Hu, Mingming Gong, Sergey Tulyakov, Anil Kag
cs.AI
papers.abstract
Jüngste Fortschritte bei Diffusions-Transformatoren (DiTs) haben neue Maßstäbe in der Bildgenerierung gesetzt, bleiben jedoch aufgrund ihrer hohen Rechen- und Speicherkosten für den Einsatz auf Endgeräten unpraktikabel. In dieser Arbeit stellen wir ein effizientes DiT-Framework vor, das für mobile Geräte und Edge-Devices entwickelt wurde und Transformator-ähnliche Generierungsqualität unter strengen Ressourcenbeschränkungen erreicht. Unser Entwurf kombiniert drei Schlüsselkomponenten. Erstens schlagen wir eine kompakte DiT-Architektur mit einem adaptiven global-lokalen Sparse-Attention-Mechanismus vor, der globale Kontextmodellierung und lokale Detailerhaltung in Einklang bringt. Zweitens entwickeln wir ein elastisches Trainingsframework, das Sub-DiTs unterschiedlicher Kapazitäten innerhalb eines einheitlichen Supernetzes gemeinsam optimiert, sodass ein einzelnes Modell die Inferenzeffizienz dynamisch an verschiedene Hardware anpassen kann. Schließlich entwickeln wir „Knowledge-Guided Distribution Matching Distillation“, eine Schritt-für-Schritt-Distillationspipeline, die das DMD-Ziel mit Wissenstransfer von Lehrer-Modellen mit wenigen Schritten integriert und so hochpräzise Echtzeit-Generierung (z.B. in 4 Schritten) für den Einsatz auf Endgeräten ermöglicht. Zusammengenommen ermöglichen diese Beiträge skalierbare, effiziente und hochwertige Diffusionsmodelle für den Einsatz auf verschiedenster Hardware.
English
Recent advances in diffusion transformers (DiTs) have set new standards in image generation, yet remain impractical for on-device deployment due to their high computational and memory costs. In this work, we present an efficient DiT framework tailored for mobile and edge devices that achieves transformer-level generation quality under strict resource constraints. Our design combines three key components. First, we propose a compact DiT architecture with an adaptive global-local sparse attention mechanism that balances global context modeling and local detail preservation. Second, we propose an elastic training framework that jointly optimizes sub-DiTs of varying capacities within a unified supernetwork, allowing a single model to dynamically adjust for efficient inference across different hardware. Finally, we develop Knowledge-Guided Distribution Matching Distillation, a step-distillation pipeline that integrates the DMD objective with knowledge transfer from few-step teacher models, producing high-fidelity and low-latency generation (e.g., 4-step) suitable for real-time on-device use. Together, these contributions enable scalable, efficient, and high-quality diffusion models for deployment on diverse hardware.