DreamO: Um Framework Unificado para Personalização de Imagens
DreamO: A Unified Framework for Image Customization
April 23, 2025
Autores: Chong Mou, Yanze Wu, Wenxu Wu, Zinan Guo, Pengze Zhang, Yufeng Cheng, Yiming Luo, Fei Ding, Shiwen Zhang, Xinghui Li, Mengtian Li, Songtao Zhao, Jian Zhang, Qian He, Xinglong Wu
cs.AI
Resumo
Recentemente, extensas pesquisas sobre personalização de imagens (por exemplo, identidade, assunto, estilo, fundo, etc.) demonstram fortes capacidades de personalização em modelos generativos em larga escala. No entanto, a maioria das abordagens é projetada para tarefas específicas, restringindo sua generalização para combinar diferentes tipos de condições. Desenvolver uma estrutura unificada para personalização de imagens continua sendo um desafio em aberto. Neste artigo, apresentamos o DreamO, uma estrutura de personalização de imagens projetada para suportar uma ampla gama de tarefas, ao mesmo tempo em que facilita a integração perfeita de múltiplas condições. Especificamente, o DreamO utiliza uma estrutura de transformador de difusão (DiT) para processar uniformemente entradas de diferentes tipos. Durante o treinamento, construímos um grande conjunto de dados de treinamento que inclui várias tarefas de personalização, e introduzimos uma restrição de roteamento de características para facilitar a consulta precisa de informações relevantes a partir de imagens de referência. Além disso, projetamos uma estratégia de marcador que associa marcadores específicos a condições em posições particulares, permitindo o controle sobre o posicionamento das condições nos resultados gerados. Adicionalmente, empregamos uma estratégia de treinamento progressivo composta por três estágios: um estágio inicial focado em tarefas simples com dados limitados para estabelecer consistência básica, um estágio de treinamento em larga escala para aprimorar de forma abrangente as capacidades de personalização, e um estágio final de alinhamento de qualidade para corrigir vieses de qualidade introduzidos por dados de baixa qualidade. Experimentos extensivos demonstram que o DreamO proposto pode efetivamente realizar várias tarefas de personalização de imagens com alta qualidade e integrar de forma flexível diferentes tipos de condições de controle.
English
Recently, extensive research on image customization (e.g., identity, subject,
style, background, etc.) demonstrates strong customization capabilities in
large-scale generative models. However, most approaches are designed for
specific tasks, restricting their generalizability to combine different types
of condition. Developing a unified framework for image customization remains an
open challenge. In this paper, we present DreamO, an image customization
framework designed to support a wide range of tasks while facilitating seamless
integration of multiple conditions. Specifically, DreamO utilizes a diffusion
transformer (DiT) framework to uniformly process input of different types.
During training, we construct a large-scale training dataset that includes
various customization tasks, and we introduce a feature routing constraint to
facilitate the precise querying of relevant information from reference images.
Additionally, we design a placeholder strategy that associates specific
placeholders with conditions at particular positions, enabling control over the
placement of conditions in the generated results. Moreover, we employ a
progressive training strategy consisting of three stages: an initial stage
focused on simple tasks with limited data to establish baseline consistency, a
full-scale training stage to comprehensively enhance the customization
capabilities, and a final quality alignment stage to correct quality biases
introduced by low-quality data. Extensive experiments demonstrate that the
proposed DreamO can effectively perform various image customization tasks with
high quality and flexibly integrate different types of control conditions.Summary
AI-Generated Summary