SnapGen++: Раскрытие потенциала диффузионных трансформеров для эффективной генерации высококачественных изображений на периферийных устройствах
SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices
January 13, 2026
Авторы: Dongting Hu, Aarush Gupta, Magzhan Gabidolla, Arpit Sahni, Huseyin Coskun, Yanyu Li, Yerlan Idelbayev, Ahsan Mahmood, Aleksei Lebedev, Dishani Lahiri, Anujraaj Goyal, Ju Hu, Mingming Gong, Sergey Tulyakov, Anil Kag
cs.AI
Аннотация
Последние достижения в области диффузионных трансформеров (DiT) установили новые стандарты в генерации изображений, однако их практическое применение на устройствах остается непрактичным из-за высоких вычислительных затрат и требований к памяти. В данной работе мы представляем эффективную архитектуру DiT, адаптированную для мобильных и периферийных устройств, которая обеспечивает качество генерации на уровне трансформеров при строгих ограничениях ресурсов. Наша разработка объединяет три ключевых компонента. Во-первых, мы предлагаем компактную архитектуру DiT с адаптивным глобально-локальным механизмом разреженного внимания, который балансирует моделирование глобального контекста и сохранение локальных деталей. Во-вторых, мы представляем эластичную框架у обучения, которая совместно оптимизирует под-архитектуры DiT различной мощности в рамках единой суперсети, позволяя одной модели динамически адаптироваться для эффективного вывода на разном оборудовании. Наконец, мы разработали дистилляцию с согласованием распределений на основе знаний — поэтапный конвейер дистилляции, который интегрирует цель DMD с передачей знаний от учительских моделей с малым числом шагов, обеспечивая генерацию высокой точности с низкой задержкой (например, за 4 шага), пригодную для использования на устройствах в реальном времени. В совокупности эти достижения позволяют создавать масштабируемые, эффективные и качественные диффузионные модели для развертывания на разнообразном оборудовании.
English
Recent advances in diffusion transformers (DiTs) have set new standards in image generation, yet remain impractical for on-device deployment due to their high computational and memory costs. In this work, we present an efficient DiT framework tailored for mobile and edge devices that achieves transformer-level generation quality under strict resource constraints. Our design combines three key components. First, we propose a compact DiT architecture with an adaptive global-local sparse attention mechanism that balances global context modeling and local detail preservation. Second, we propose an elastic training framework that jointly optimizes sub-DiTs of varying capacities within a unified supernetwork, allowing a single model to dynamically adjust for efficient inference across different hardware. Finally, we develop Knowledge-Guided Distribution Matching Distillation, a step-distillation pipeline that integrates the DMD objective with knowledge transfer from few-step teacher models, producing high-fidelity and low-latency generation (e.g., 4-step) suitable for real-time on-device use. Together, these contributions enable scalable, efficient, and high-quality diffusion models for deployment on diverse hardware.