DreamLite: Un Modelo Unificado Ligero para Generación y Edición de Imágenes en Dispositivo

Resumen

Los modelos de difusión han logrado avances significativos tanto en la generación de texto a imagen (T2I) como en la edición de imágenes guiada por texto. Sin embargo, estos modelos suelen construirse con miles de millones de parámetros, lo que genera una alta latencia y mayores desafíos de implementación. Si bien los modelos de difusión en el dispositivo mejoran la eficiencia, se centran principalmente en la generación T2I y carecen de soporte para la edición de imágenes. En este artículo, proponemos DreamLite, un modelo de difusión unificado y compacto (0.39B) para dispositivos que admite tanto la generación T2I como la edición de imágenes guiada por texto dentro de una única red. DreamLite se construye sobre una red U-Net móvil podada y unifica el condicionamiento mediante concatenación espacial en contexto en el espacio latente. Concatena imágenes horizontalmente como entrada, utilizando una configuración (destino | blanco) para tareas de generación y (destino | origen) para tareas de edición. Para estabilizar el entrenamiento de este modelo compacto, introducimos una estrategia de preentrenamiento conjunto progresivo por tareas que se enfoca secuencialmente en T2I, edición y tareas conjuntas. Tras un ajuste fino supervisado de alta calidad y aprendizaje por refuerzo, DreamLite logra GenEval (0.72) para generación de imágenes e ImgEdit (4.11) para edición de imágenes, superando a los modelos existentes en el dispositivo y manteniéndose competitivo con varios modelos del lado del servidor. Mediante el uso de destilación por pasos, reducimos aún más el procesamiento de eliminación de ruido a solo 4 pasos, lo que permite que nuestro DreamLite pueda generar o editar una imagen de 1024 x 1024 en menos de 1 segundo en un smartphone Xiaomi 14. Hasta donde sabemos, DreamLite es el primer modelo de difusión unificado en el dispositivo que admite tanto la generación como la edición de imágenes.

English

Diffusion models have made significant progress in both text-to-image (T2I) generation and text-guided image editing. However, these models are typically built with billions of parameters, leading to high latency and increased deployment challenges. While on-device diffusion models improve efficiency, they largely focus on T2I generation and lack support for image editing. In this paper, we propose DreamLite, a compact unified on-device diffusion model (0.39B) that supports both T2I generation and text-guided image editing within a single network. DreamLite is built on a pruned mobile U-Net backbone and unifies conditioning through in-context spatial concatenation in the latent space. It concatenates images horizontally as input, using a (target | blank) configuration for generation tasks and (target | source) for editing tasks. To stabilize the training of this compact model, we introduce a task-progressive joint pretraining strategy that sequentially targets T2I, editing, and joint tasks. After high-quality SFT and reinforcement learning, DreamLite achieves GenEval (0.72) for image generation and ImgEdit (4.11) for image editing, outperforming existing on-device models and remaining competitive with several server-side models. By employing step distillation, we further reduce denoising processing to just 4 steps, enabling our DreamLite could generate or edit a 1024 x 1024 image in less than 1s on a Xiaomi 14 smartphone. To the best of our knowledge, DreamLite is the first unified on-device diffusion model that supports both image generation and image editing.

DreamLite: Un Modelo Unificado Ligero para Generación y Edición de Imágenes en Dispositivo

DreamLite: A Lightweight On-Device Unified Model for Image Generation and Editing

Resumen

Support