DreamLite: Легковесная унифицированная модель для генерации и редактирования изображений на устройстве

Аннотация

Модели диффузии достигли значительного прогресса как в генерации изображений по тексту (T2I), так и в текстовом редактировании изображений. Однако эти модели обычно содержат миллиарды параметров, что приводит к высокой задержке и усложняет их развертывание. Хотя диффузионные модели для работы на устройствах повышают эффективность, они в основном ориентированы на генерацию T2I и не поддерживают редактирование изображений. В данной статье мы представляем DreamLite — компактную унифицированную диффузионную модель (0,39 млрд параметров) для работы на устройствах, которая поддерживает как генерацию T2I, так и текстовое редактирование изображений в рамках единой сети. DreamLite построена на усеченной мобильной архитектуре U-Net и унифицирует условия за счет контекстной пространственной конкатенации в латентном пространстве. Она объединяет изображения горизонтально в качестве входных данных, используя конфигурацию (целевое | пустое) для задач генерации и (целевое | исходное) для задач редактирования. Для стабилизации обучения этой компактной модели мы вводим поэтапную совместную стратегию предварительного обучения, которая последовательно нацелена на задачи T2I, редактирования и их совместного выполнения. После высококачественного тонкого обучения с учителем и обучения с подкреплением DreamLite достигает показателей GenEval (0,72) для генерации изображений и ImgEdit (4,11) для редактирования изображений, превосходя существующие модели для устройств и оставаясь конкурентоспособной с несколькими серверными моделями. Применяя дистилляцию шагов, мы дополнительно сокращаем процесс удаления шума до всего 4 шагов, что позволяет нашей модели DreamLite генерировать или редактировать изображение 1024×1024 менее чем за 1 секунду на смартфоне Xiaomi 14. Насколько нам известно, DreamLite является первой унифицированной диффузионной моделью для работы на устройствах, которая поддерживает как генерацию, так и редактирование изображений.

English

Diffusion models have made significant progress in both text-to-image (T2I) generation and text-guided image editing. However, these models are typically built with billions of parameters, leading to high latency and increased deployment challenges. While on-device diffusion models improve efficiency, they largely focus on T2I generation and lack support for image editing. In this paper, we propose DreamLite, a compact unified on-device diffusion model (0.39B) that supports both T2I generation and text-guided image editing within a single network. DreamLite is built on a pruned mobile U-Net backbone and unifies conditioning through in-context spatial concatenation in the latent space. It concatenates images horizontally as input, using a (target | blank) configuration for generation tasks and (target | source) for editing tasks. To stabilize the training of this compact model, we introduce a task-progressive joint pretraining strategy that sequentially targets T2I, editing, and joint tasks. After high-quality SFT and reinforcement learning, DreamLite achieves GenEval (0.72) for image generation and ImgEdit (4.11) for image editing, outperforming existing on-device models and remaining competitive with several server-side models. By employing step distillation, we further reduce denoising processing to just 4 steps, enabling our DreamLite could generate or edit a 1024 x 1024 image in less than 1s on a Xiaomi 14 smartphone. To the best of our knowledge, DreamLite is the first unified on-device diffusion model that supports both image generation and image editing.

DreamLite: Легковесная унифицированная модель для генерации и редактирования изображений на устройстве

DreamLite: A Lightweight On-Device Unified Model for Image Generation and Editing

Аннотация

Support