DreamLite: Un Modello Unificato Leggero per la Generazione e Modifica di Immagini su Dispositivo

Abstract

I modelli di diffusione hanno compiuto progressi significativi sia nella generazione testo-immagine (T2I) che nella modifica guidata da testo delle immagini. Tuttavia, questi modelli sono tipicamente costruiti con miliardi di parametri, il che comporta un'elevata latenza e maggiori sfide per il deployment. Sebbene i modelli di diffusione on-device migliorino l'efficienza, si concentrano in gran parte sulla generazione T2I e mancano di supporto per la modifica delle immagini. In questo articolo, proponiamo DreamLite, un modello di diffusione unificato e compatto (0,39B) per dispositivi locali che supporta sia la generazione T2I che la modifica guidata da testo delle immagini all'interno di un'unica rete. DreamLite è costruito su un'architettura U-Net mobile ottimizzata e unifica il condizionamento tramite concatenazione spaziale in-context nello spazio latente. Concatena orizzontalmente le immagini come input, utilizzando una configurazione (target | blank) per i task di generazione e (target | source) per i task di modifica. Per stabilizzare l'addestramento di questo modello compatto, introduciamo una strategia di pre-addestramento congiunto progressivo per task che mira sequenzialmente ai task T2I, di modifica e congiunti. Dopo un fine-tuning supervisionato di alta qualità e un apprendimento per rinforzo, DreamLite raggiunge un punteggio GenEval (0,72) per la generazione di immagini e ImgEdit (4,11) per la modifica delle immagini, superando i modelli on-device esistenti e rimanendo competitivo con diversi modelli lato server. Impiegando la distillazione dei passi, riduciamo ulteriormente l'elaborazione del rumore a soli 4 step, consentendo a DreamLite di generare o modificare un'immagine 1024 x 1024 in meno di 1 secondo su uno smartphone Xiaomi 14. A nostra conoscenza, DreamLite è il primo modello di diffusione unificato on-device che supporta sia la generazione che la modifica delle immagini.

English

Diffusion models have made significant progress in both text-to-image (T2I) generation and text-guided image editing. However, these models are typically built with billions of parameters, leading to high latency and increased deployment challenges. While on-device diffusion models improve efficiency, they largely focus on T2I generation and lack support for image editing. In this paper, we propose DreamLite, a compact unified on-device diffusion model (0.39B) that supports both T2I generation and text-guided image editing within a single network. DreamLite is built on a pruned mobile U-Net backbone and unifies conditioning through in-context spatial concatenation in the latent space. It concatenates images horizontally as input, using a (target | blank) configuration for generation tasks and (target | source) for editing tasks. To stabilize the training of this compact model, we introduce a task-progressive joint pretraining strategy that sequentially targets T2I, editing, and joint tasks. After high-quality SFT and reinforcement learning, DreamLite achieves GenEval (0.72) for image generation and ImgEdit (4.11) for image editing, outperforming existing on-device models and remaining competitive with several server-side models. By employing step distillation, we further reduce denoising processing to just 4 steps, enabling our DreamLite could generate or edit a 1024 x 1024 image in less than 1s on a Xiaomi 14 smartphone. To the best of our knowledge, DreamLite is the first unified on-device diffusion model that supports both image generation and image editing.

DreamLite: Un Modello Unificato Leggero per la Generazione e Modifica di Immagini su Dispositivo

DreamLite: A Lightweight On-Device Unified Model for Image Generation and Editing

Abstract

Support