DreamLite: Ein schlankes, geräteinternes Unified Model für Bildgenerierung und -bearbeitung

Zusammenfassung

Diffusionsmodelle haben sowohl bei der Text-zu-Bild-Generierung (T2I) als auch bei der textgesteuerten Bildbearbeitung bedeutende Fortschritte erzielt. Diese Modelle sind jedoch typischerweise mit Milliarden von Parametern aufgebaut, was zu hoher Latenz und erhöhten Herausforderungen bei der Bereitstellung führt. Während On-Device-Diffusionsmodelle die Effizienz verbessern, konzentrieren sie sich weitgehend auf die T2I-Generierung und bieten keine Unterstützung für die Bildbearbeitung. In diesem Artikel stellen wir DreamLite vor, ein kompaktes, vereinheitlichtes On-Device-Diffusionsmodell (0,39B), das sowohl T2I-Generierung als auch textgesteuerte Bildbearbeitung innerhalb eines einzigen Netzwerks unterstützt. DreamLite basiert auf einer gestutzten mobilen U-Net-Architektur und vereinheitlicht die Konditionierung durch In-Context-räumliche Verkettung im latenten Raum. Es verkettet Bilder horizontal als Eingabe und verwendet eine (Ziel | Leer)-Konfiguration für Generierungsaufgaben und (Ziel | Quelle) für Bearbeitungsaufgaben. Um das Training dieses kompakten Modells zu stabilisieren, führen wir eine aufgabenprogressive gemeinsame Vor-Trainingsstrategie ein, die nacheinander T2I-, Bearbeitungs- und gemeinsame Aufgaben adressiert. Nach hochwertigem SFT und Reinforcement Learning erreicht DreamLite GenEval (0,72) für die Bildgenerierung und ImgEdit (4,11) für die Bildbearbeitung, übertrifft damit bestehende On-Device-Modelle und bleibt wettbewerbsfähig mit mehreren serverbasierten Modellen. Durch den Einsatz von Step Distillation reduzieren wir die Rauschunterdrückungsverarbeitung auf nur 4 Schritte, was es unserem DreamLite ermöglicht, ein 1024 x 1024 Bild in weniger als 1s auf einem Xiaomi 14 Smartphone zu generieren oder zu bearbeiten. Nach unserem besten Wissen ist DreamLite das erste vereinheitlichte On-Device-Diffusionsmodell, das sowohl Bildgenerierung als auch Bildbearbeitung unterstützt.

English

Diffusion models have made significant progress in both text-to-image (T2I) generation and text-guided image editing. However, these models are typically built with billions of parameters, leading to high latency and increased deployment challenges. While on-device diffusion models improve efficiency, they largely focus on T2I generation and lack support for image editing. In this paper, we propose DreamLite, a compact unified on-device diffusion model (0.39B) that supports both T2I generation and text-guided image editing within a single network. DreamLite is built on a pruned mobile U-Net backbone and unifies conditioning through in-context spatial concatenation in the latent space. It concatenates images horizontally as input, using a (target | blank) configuration for generation tasks and (target | source) for editing tasks. To stabilize the training of this compact model, we introduce a task-progressive joint pretraining strategy that sequentially targets T2I, editing, and joint tasks. After high-quality SFT and reinforcement learning, DreamLite achieves GenEval (0.72) for image generation and ImgEdit (4.11) for image editing, outperforming existing on-device models and remaining competitive with several server-side models. By employing step distillation, we further reduce denoising processing to just 4 steps, enabling our DreamLite could generate or edit a 1024 x 1024 image in less than 1s on a Xiaomi 14 smartphone. To the best of our knowledge, DreamLite is the first unified on-device diffusion model that supports both image generation and image editing.

DreamLite: Ein schlankes, geräteinternes Unified Model für Bildgenerierung und -bearbeitung

DreamLite: A Lightweight On-Device Unified Model for Image Generation and Editing

Zusammenfassung

Support