DreamLite: Um Modelo Unificado Leve para Geração e Edição de Imagens em Dispositivos Locais

Resumo

Os modelos de difusão têm feito progressos significativos tanto na geração de texto para imagem (T2I) quanto na edição de imagens guiada por texto. No entanto, esses modelos são normalmente construídos com bilhões de parâmetros, resultando em alta latência e maiores desafios de implantação. Embora os modelos de difusão em dispositivo melhorem a eficiência, eles se concentram amplamente na geração T2I e carecem de suporte para edição de imagens. Neste artigo, propomos o DreamLite, um modelo de difusão unificado e compacto para dispositivos (0,39B) que suporta tanto a geração T2I quanto a edição de imagens guiada por texto em uma única rede. O DreamLite é construído sobre uma estrutura U-Net móvel podada e unifica o condicionamento por meio de concatenação espacial contextual no espaço latente. Ele concatena imagens horizontalmente como entrada, usando uma configuração (alvo | branco) para tarefas de geração e (alvo | origem) para tarefas de edição. Para estabilizar o treinamento deste modelo compacto, introduzimos uma estratégia de pré-treinamento conjunto progressivo em tarefas que visa sequencialmente T2I, edição e tarefas conjuntas. Após SFT de alta qualidade e aprendizado por reforço, o DreamLite alcança GenEval (0,72) para geração de imagem e ImgEdit (4,11) para edição de imagem, superando os modelos existentes em dispositivo e permanecendo competitivo com vários modelos do lado do servidor. Empregando a destilação de etapas, reduzimos ainda mais o processamento de remoção de ruído para apenas 4 etapas, permitindo que nosso DreamLite gere ou edite uma imagem de 1024 x 1024 em menos de 1s em um smartphone Xiaomi 14. Até onde sabemos, o DreamLite é o primeiro modelo de difusão unificado em dispositivo que suporta tanto a geração quanto a edição de imagens.

English

Diffusion models have made significant progress in both text-to-image (T2I) generation and text-guided image editing. However, these models are typically built with billions of parameters, leading to high latency and increased deployment challenges. While on-device diffusion models improve efficiency, they largely focus on T2I generation and lack support for image editing. In this paper, we propose DreamLite, a compact unified on-device diffusion model (0.39B) that supports both T2I generation and text-guided image editing within a single network. DreamLite is built on a pruned mobile U-Net backbone and unifies conditioning through in-context spatial concatenation in the latent space. It concatenates images horizontally as input, using a (target | blank) configuration for generation tasks and (target | source) for editing tasks. To stabilize the training of this compact model, we introduce a task-progressive joint pretraining strategy that sequentially targets T2I, editing, and joint tasks. After high-quality SFT and reinforcement learning, DreamLite achieves GenEval (0.72) for image generation and ImgEdit (4.11) for image editing, outperforming existing on-device models and remaining competitive with several server-side models. By employing step distillation, we further reduce denoising processing to just 4 steps, enabling our DreamLite could generate or edit a 1024 x 1024 image in less than 1s on a Xiaomi 14 smartphone. To the best of our knowledge, DreamLite is the first unified on-device diffusion model that supports both image generation and image editing.

DreamLite: Um Modelo Unificado Leve para Geração e Edição de Imagens em Dispositivos Locais

DreamLite: A Lightweight On-Device Unified Model for Image Generation and Editing

Resumo

Support