DreamO: Um Framework Unificado para Personalização de Imagens

Resumo

Recentemente, extensas pesquisas sobre personalização de imagens (por exemplo, identidade, assunto, estilo, fundo, etc.) demonstram fortes capacidades de personalização em modelos generativos em larga escala. No entanto, a maioria das abordagens é projetada para tarefas específicas, restringindo sua generalização para combinar diferentes tipos de condições. Desenvolver uma estrutura unificada para personalização de imagens continua sendo um desafio em aberto. Neste artigo, apresentamos o DreamO, uma estrutura de personalização de imagens projetada para suportar uma ampla gama de tarefas, ao mesmo tempo em que facilita a integração perfeita de múltiplas condições. Especificamente, o DreamO utiliza uma estrutura de transformador de difusão (DiT) para processar uniformemente entradas de diferentes tipos. Durante o treinamento, construímos um grande conjunto de dados de treinamento que inclui várias tarefas de personalização, e introduzimos uma restrição de roteamento de características para facilitar a consulta precisa de informações relevantes a partir de imagens de referência. Além disso, projetamos uma estratégia de marcador que associa marcadores específicos a condições em posições particulares, permitindo o controle sobre o posicionamento das condições nos resultados gerados. Adicionalmente, empregamos uma estratégia de treinamento progressivo composta por três estágios: um estágio inicial focado em tarefas simples com dados limitados para estabelecer consistência básica, um estágio de treinamento em larga escala para aprimorar de forma abrangente as capacidades de personalização, e um estágio final de alinhamento de qualidade para corrigir vieses de qualidade introduzidos por dados de baixa qualidade. Experimentos extensivos demonstram que o DreamO proposto pode efetivamente realizar várias tarefas de personalização de imagens com alta qualidade e integrar de forma flexível diferentes tipos de condições de controle.

English

Recently, extensive research on image customization (e.g., identity, subject, style, background, etc.) demonstrates strong customization capabilities in large-scale generative models. However, most approaches are designed for specific tasks, restricting their generalizability to combine different types of condition. Developing a unified framework for image customization remains an open challenge. In this paper, we present DreamO, an image customization framework designed to support a wide range of tasks while facilitating seamless integration of multiple conditions. Specifically, DreamO utilizes a diffusion transformer (DiT) framework to uniformly process input of different types. During training, we construct a large-scale training dataset that includes various customization tasks, and we introduce a feature routing constraint to facilitate the precise querying of relevant information from reference images. Additionally, we design a placeholder strategy that associates specific placeholders with conditions at particular positions, enabling control over the placement of conditions in the generated results. Moreover, we employ a progressive training strategy consisting of three stages: an initial stage focused on simple tasks with limited data to establish baseline consistency, a full-scale training stage to comprehensively enhance the customization capabilities, and a final quality alignment stage to correct quality biases introduced by low-quality data. Extensive experiments demonstrate that the proposed DreamO can effectively perform various image customization tasks with high quality and flexibly integrate different types of control conditions.

DreamO: Um Framework Unificado para Personalização de Imagens

DreamO: A Unified Framework for Image Customization

Resumo

Summary

Support

Support