DreamLite : Un modèle unifié léger pour la génération et l'édition d'images sur appareil

Résumé

Les modèles de diffusion ont réalisé des progrès significatifs dans la génération texte-image (T2I) et l'édition d'images guidée par texte. Cependant, ces modèles sont généralement construits avec des milliards de paramètres, entraînant une latence élevée et des défis de déploiement accrus. Bien que les modèles de diffusion embarqués améliorent l'efficacité, ils se concentrent largement sur la génération T2I et manquent de prise en charge pour l'édition d'images. Dans cet article, nous proposons DreamLite, un modèle de diffusion unifié compact embarqué (0,39 milliard de paramètres) qui prend en charge à la fois la génération T2I et l'édition d'images guidée par texte au sein d'un réseau unique. DreamLite est construit sur une architecture U-Net mobile élaguée et unifie le conditionnement par concaténation spatiale contextuelle dans l'espace latent. Il concatène horizontalement les images en entrée, utilisant une configuration (cible | vide) pour les tâches de génération et (cible | source) pour les tâches d'édition. Pour stabiliser l'entraînement de ce modèle compact, nous introduisons une stratégie de pré-entraînement conjoint progressif qui cible séquentiellement les tâches T2I, d'édition et conjointes. Après un apprentissage par fine-tuning de haute qualité et un apprentissage par renforcement, DreamLite atteint un score GenEval (0,72) pour la génération d'images et ImgEdit (4,11) pour l'édition d'images, surpassant les modèles embarqués existants et restant compétitif avec plusieurs modèles côté serveur. En employant la distillation d'étapes, nous réduisons encore le traitement de débruitage à seulement 4 étapes, permettant à DreamLite de générer ou modifier une image 1024 x 1024 en moins d'une seconde sur un smartphone Xiaomi 14. À notre connaissance, DreamLite est le premier modèle de diffusion unifié embarqué qui prend en charge à la fois la génération et l'édition d'images.

English

Diffusion models have made significant progress in both text-to-image (T2I) generation and text-guided image editing. However, these models are typically built with billions of parameters, leading to high latency and increased deployment challenges. While on-device diffusion models improve efficiency, they largely focus on T2I generation and lack support for image editing. In this paper, we propose DreamLite, a compact unified on-device diffusion model (0.39B) that supports both T2I generation and text-guided image editing within a single network. DreamLite is built on a pruned mobile U-Net backbone and unifies conditioning through in-context spatial concatenation in the latent space. It concatenates images horizontally as input, using a (target | blank) configuration for generation tasks and (target | source) for editing tasks. To stabilize the training of this compact model, we introduce a task-progressive joint pretraining strategy that sequentially targets T2I, editing, and joint tasks. After high-quality SFT and reinforcement learning, DreamLite achieves GenEval (0.72) for image generation and ImgEdit (4.11) for image editing, outperforming existing on-device models and remaining competitive with several server-side models. By employing step distillation, we further reduce denoising processing to just 4 steps, enabling our DreamLite could generate or edit a 1024 x 1024 image in less than 1s on a Xiaomi 14 smartphone. To the best of our knowledge, DreamLite is the first unified on-device diffusion model that supports both image generation and image editing.

DreamLite : Un modèle unifié léger pour la génération et l'édition d'images sur appareil

DreamLite: A Lightweight On-Device Unified Model for Image Generation and Editing

Résumé

Support