SnapGen++:エッジデバイスにおける効率的な高精細画像生成のためのDiffusion Transformerの解放
SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices
January 13, 2026
著者: Dongting Hu, Aarush Gupta, Magzhan Gabidolla, Arpit Sahni, Huseyin Coskun, Yanyu Li, Yerlan Idelbayev, Ahsan Mahmood, Aleksei Lebedev, Dishani Lahiri, Anujraaj Goyal, Ju Hu, Mingming Gong, Sergey Tulyakov, Anil Kag
cs.AI
要旨
拡散トランスフォーマー(DiT)の最近の進歩は画像生成において新たな基準を確立したが、高い計算コストとメモリ要件のため、オンデバイス展開には非現実的である。本研究では、モバイルおよびエッジデバイス向けに効率化されたDiTフレームワークを提案する。これは厳しいリソース制約下でもトランスフォーマーレベルの生成品質を実現する。我々の設計は3つの主要要素を組み合わせている。第一に、大域的なコンテキストモデリングと局所的な詳細保存のバランスを取る適応型大域-局所スパース注意機構を備えたコンパクトなDiTアーキテクチャを提案する。第二に、様々な容量のサブDiTを統一スーパーネットワーク内で共同最適化する弾力的トレーニングフレームワークを提案し、単一モデルが異なるハードウェアに応じて動的に調整可能な効率的な推論を実現する。最後に、DMD目的関数と少数ステップの教師モデルからの知識転移を統合した段階的蒸留パイプラインである知識誘導型分布マッチング蒸約を開発し、リアルタイムオンデバイス利用に適した高忠実度かつ低遅延な生成(例:4ステップ)を実現する。これらの貢献により、多様なハードウェアへの展開が可能なスケーラブルで効率的かつ高品質な拡散モデルを実現する。
English
Recent advances in diffusion transformers (DiTs) have set new standards in image generation, yet remain impractical for on-device deployment due to their high computational and memory costs. In this work, we present an efficient DiT framework tailored for mobile and edge devices that achieves transformer-level generation quality under strict resource constraints. Our design combines three key components. First, we propose a compact DiT architecture with an adaptive global-local sparse attention mechanism that balances global context modeling and local detail preservation. Second, we propose an elastic training framework that jointly optimizes sub-DiTs of varying capacities within a unified supernetwork, allowing a single model to dynamically adjust for efficient inference across different hardware. Finally, we develop Knowledge-Guided Distribution Matching Distillation, a step-distillation pipeline that integrates the DMD objective with knowledge transfer from few-step teacher models, producing high-fidelity and low-latency generation (e.g., 4-step) suitable for real-time on-device use. Together, these contributions enable scalable, efficient, and high-quality diffusion models for deployment on diverse hardware.