SnapGen++: Sfruttare i Trasformatori Diffusion per una Generazione di Immagini ad Alta Fedeltà ed Efficiente su Dispositivi Edge

Abstract

I recenti progressi nei transformer diffusivi (DiT) hanno stabilito nuovi standard nella generazione di immagini, ma rimangono impraticabili per l'implementazione su dispositivo a causa degli elevati costi computazionali e di memoria. In questo lavoro, presentiamo un framework DiT efficiente, progettato per dispositivi mobili e periferici, che raggiunge una qualità di generazione di livello transformer sotto stringenti vincoli di risorse. Il nostro design combina tre componenti chiave. In primo luogo, proponiamo un'architettura DiT compatta con un meccanismo di attenzione sparsa globale-locale adattiva che bilancia la modellazione del contesto globale e la preservazione dei dettagli locali. In secondo luogo, proponiamo un framework di training elastico che ottimizza congiuntamente sub-DiT di capacità variabili all'interno di una super-rete unificata, consentendo a un singolo modello di adattarsi dinamicamente per un'inferenza efficiente su hardware diversi. Infine, sviluppiamo la Distillazione per Apprendimento Distribuzionale Guidata dalla Conoscenza (Knowledge-Guided Distribution Matching Distillation), una pipeline di distillazione step-by-step che integra l'obiettivo DMD con il trasferimento di conoscenza da modelli insegnanti a pochi passi, producendo una generazione ad alta fedeltà e bassa latenza (ad esempio, a 4 passi) adatta all'uso in tempo reale su dispositivo. Nel complesso, questi contributi abilitano modelli di diffusione scalabili, efficienti e di alta qualità per il deployment su hardware eterogenei.

English

Recent advances in diffusion transformers (DiTs) have set new standards in image generation, yet remain impractical for on-device deployment due to their high computational and memory costs. In this work, we present an efficient DiT framework tailored for mobile and edge devices that achieves transformer-level generation quality under strict resource constraints. Our design combines three key components. First, we propose a compact DiT architecture with an adaptive global-local sparse attention mechanism that balances global context modeling and local detail preservation. Second, we propose an elastic training framework that jointly optimizes sub-DiTs of varying capacities within a unified supernetwork, allowing a single model to dynamically adjust for efficient inference across different hardware. Finally, we develop Knowledge-Guided Distribution Matching Distillation, a step-distillation pipeline that integrates the DMD objective with knowledge transfer from few-step teacher models, producing high-fidelity and low-latency generation (e.g., 4-step) suitable for real-time on-device use. Together, these contributions enable scalable, efficient, and high-quality diffusion models for deployment on diverse hardware.

SnapGen++: Sfruttare i Trasformatori Diffusion per una Generazione di Immagini ad Alta Fedeltà ed Efficiente su Dispositivi Edge

SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices

Abstract

Support