DreamO: Унифицированная платформа для настройки изображений
DreamO: A Unified Framework for Image Customization
April 23, 2025
Авторы: Chong Mou, Yanze Wu, Wenxu Wu, Zinan Guo, Pengze Zhang, Yufeng Cheng, Yiming Luo, Fei Ding, Shiwen Zhang, Xinghui Li, Mengtian Li, Songtao Zhao, Jian Zhang, Qian He, Xinglong Wu
cs.AI
Аннотация
В последнее время обширные исследования в области настройки изображений (например, идентичности, объекта, стиля, фона и т.д.) демонстрируют мощные возможности кастомизации в крупномасштабных генеративных моделях. Однако большинство подходов разработаны для конкретных задач, что ограничивает их универсальность в комбинировании различных типов условий. Разработка унифицированной системы для настройки изображений остается открытой проблемой. В данной статье мы представляем DreamO — систему настройки изображений, предназначенную для поддержки широкого спектра задач и обеспечивающую бесшовную интеграцию множества условий. В частности, DreamO использует фреймворк диффузионного трансформера (DiT) для единообразной обработки входных данных различных типов. В процессе обучения мы создаем крупномасштабный набор данных, включающий различные задачи настройки, и вводим ограничение на маршрутизацию признаков для точного извлечения релевантной информации из эталонных изображений. Кроме того, мы разрабатываем стратегию использования заполнителей, которая связывает конкретные заполнители с условиями в определенных позициях, что позволяет контролировать размещение условий в генерируемых результатах. Также мы применяем прогрессивную стратегию обучения, состоящую из трех этапов: начальный этап, сосредоточенный на простых задачах с ограниченным объемом данных для установления базовой согласованности, этап полномасштабного обучения для всестороннего улучшения возможностей настройки и заключительный этап выравнивания качества для устранения искажений, вызванных низкокачественными данными. Многочисленные эксперименты показывают, что предложенная система DreamO способна эффективно выполнять различные задачи настройки изображений с высоким качеством и гибко интегрировать различные типы управляющих условий.
English
Recently, extensive research on image customization (e.g., identity, subject,
style, background, etc.) demonstrates strong customization capabilities in
large-scale generative models. However, most approaches are designed for
specific tasks, restricting their generalizability to combine different types
of condition. Developing a unified framework for image customization remains an
open challenge. In this paper, we present DreamO, an image customization
framework designed to support a wide range of tasks while facilitating seamless
integration of multiple conditions. Specifically, DreamO utilizes a diffusion
transformer (DiT) framework to uniformly process input of different types.
During training, we construct a large-scale training dataset that includes
various customization tasks, and we introduce a feature routing constraint to
facilitate the precise querying of relevant information from reference images.
Additionally, we design a placeholder strategy that associates specific
placeholders with conditions at particular positions, enabling control over the
placement of conditions in the generated results. Moreover, we employ a
progressive training strategy consisting of three stages: an initial stage
focused on simple tasks with limited data to establish baseline consistency, a
full-scale training stage to comprehensively enhance the customization
capabilities, and a final quality alignment stage to correct quality biases
introduced by low-quality data. Extensive experiments demonstrate that the
proposed DreamO can effectively perform various image customization tasks with
high quality and flexibly integrate different types of control conditions.Summary
AI-Generated Summary