DreamLite: Een Lichtgewicht Geünificeerd Model voor Apparaten voor Beeldgeneratie en -bewerking

Samenvatting

Diffusiemodellen hebben aanzienlijke vooruitgang geboekt in zowel tekst-naar-beeld (T2I) generatie als tekstgestuurd beeldbewerking. Deze modellen zijn echter doorgaans opgebouwd uit miljarden parameters, wat leidt tot een hoge latentie en grotere implementatie-uitdagingen. Hoewel on-device diffusiemodellen de efficiëntie verbeteren, richten ze zich grotendeels op T2I-generatie en ontbreekt ondersteuning voor beeldbewerking. In dit artikel presenteren we DreamLite, een compact, verenigd on-device diffusiemodel (0,39B) dat zowel T2I-generatie als tekstgestuurd beeldbewerking ondersteunt binnen een enkel netwerk. DreamLite is gebouwd op een uitgedunde mobiele U-Net-backbone en verenigt conditionering door in-context spatiale concatenatie in de latente ruimte. Het concateneert afbeeldingen horizontaal als invoer, waarbij een (doel | leeg) configuratie wordt gebruikt voor generatietaken en (doel | bron) voor bewerkingstaken. Om de training van dit compacte model te stabiliseren, introduceren we een taakprogressieve gezamenlijke pretrainingsstrategie die achtereenvolgens gericht is op T2I-, bewerkings- en gezamenlijke taken. Na hoogwaardige SFT en reinforcement learning behaalt DreamLite een GenEval (0,72) voor beeldgeneratie en ImgEdit (4,11) voor beeldbewerking, waarmee het bestaande on-device modellen overtreft en competitief blijft met verschillende server-side modellen. Door gebruik te maken van stapdistillatie reduceren we de denoiseringsverwerking verder tot slechts 4 stappen, waardoor onze DreamLite een 1024 x 1024 afbeelding kan genereren of bewerken in minder dan 1 seconde op een Xiaomi 14-smartphone. Voor zover ons bekend is DreamLite het eerste verenigde on-device diffusiemodel dat zowel beeldgeneratie als beeldbewerking ondersteunt.

English

Diffusion models have made significant progress in both text-to-image (T2I) generation and text-guided image editing. However, these models are typically built with billions of parameters, leading to high latency and increased deployment challenges. While on-device diffusion models improve efficiency, they largely focus on T2I generation and lack support for image editing. In this paper, we propose DreamLite, a compact unified on-device diffusion model (0.39B) that supports both T2I generation and text-guided image editing within a single network. DreamLite is built on a pruned mobile U-Net backbone and unifies conditioning through in-context spatial concatenation in the latent space. It concatenates images horizontally as input, using a (target | blank) configuration for generation tasks and (target | source) for editing tasks. To stabilize the training of this compact model, we introduce a task-progressive joint pretraining strategy that sequentially targets T2I, editing, and joint tasks. After high-quality SFT and reinforcement learning, DreamLite achieves GenEval (0.72) for image generation and ImgEdit (4.11) for image editing, outperforming existing on-device models and remaining competitive with several server-side models. By employing step distillation, we further reduce denoising processing to just 4 steps, enabling our DreamLite could generate or edit a 1024 x 1024 image in less than 1s on a Xiaomi 14 smartphone. To the best of our knowledge, DreamLite is the first unified on-device diffusion model that supports both image generation and image editing.

DreamLite: Een Lichtgewicht Geünificeerd Model voor Apparaten voor Beeldgeneratie en -bewerking

DreamLite: A Lightweight On-Device Unified Model for Image Generation and Editing

Samenvatting

Support