DreamO: Унифицированная платформа для настройки изображений

Аннотация

В последнее время обширные исследования в области настройки изображений (например, идентичности, объекта, стиля, фона и т.д.) демонстрируют мощные возможности кастомизации в крупномасштабных генеративных моделях. Однако большинство подходов разработаны для конкретных задач, что ограничивает их универсальность в комбинировании различных типов условий. Разработка унифицированной системы для настройки изображений остается открытой проблемой. В данной статье мы представляем DreamO — систему настройки изображений, предназначенную для поддержки широкого спектра задач и обеспечивающую бесшовную интеграцию множества условий. В частности, DreamO использует фреймворк диффузионного трансформера (DiT) для единообразной обработки входных данных различных типов. В процессе обучения мы создаем крупномасштабный набор данных, включающий различные задачи настройки, и вводим ограничение на маршрутизацию признаков для точного извлечения релевантной информации из эталонных изображений. Кроме того, мы разрабатываем стратегию использования заполнителей, которая связывает конкретные заполнители с условиями в определенных позициях, что позволяет контролировать размещение условий в генерируемых результатах. Также мы применяем прогрессивную стратегию обучения, состоящую из трех этапов: начальный этап, сосредоточенный на простых задачах с ограниченным объемом данных для установления базовой согласованности, этап полномасштабного обучения для всестороннего улучшения возможностей настройки и заключительный этап выравнивания качества для устранения искажений, вызванных низкокачественными данными. Многочисленные эксперименты показывают, что предложенная система DreamO способна эффективно выполнять различные задачи настройки изображений с высоким качеством и гибко интегрировать различные типы управляющих условий.

English

Recently, extensive research on image customization (e.g., identity, subject, style, background, etc.) demonstrates strong customization capabilities in large-scale generative models. However, most approaches are designed for specific tasks, restricting their generalizability to combine different types of condition. Developing a unified framework for image customization remains an open challenge. In this paper, we present DreamO, an image customization framework designed to support a wide range of tasks while facilitating seamless integration of multiple conditions. Specifically, DreamO utilizes a diffusion transformer (DiT) framework to uniformly process input of different types. During training, we construct a large-scale training dataset that includes various customization tasks, and we introduce a feature routing constraint to facilitate the precise querying of relevant information from reference images. Additionally, we design a placeholder strategy that associates specific placeholders with conditions at particular positions, enabling control over the placement of conditions in the generated results. Moreover, we employ a progressive training strategy consisting of three stages: an initial stage focused on simple tasks with limited data to establish baseline consistency, a full-scale training stage to comprehensively enhance the customization capabilities, and a final quality alignment stage to correct quality biases introduced by low-quality data. Extensive experiments demonstrate that the proposed DreamO can effectively perform various image customization tasks with high quality and flexibly integrate different types of control conditions.

DreamO: Унифицированная платформа для настройки изображений

DreamO: A Unified Framework for Image Customization

Аннотация

Support