DreamO: Un Marco Unificado para la Personalización de Imágenes
DreamO: A Unified Framework for Image Customization
April 23, 2025
Autores: Chong Mou, Yanze Wu, Wenxu Wu, Zinan Guo, Pengze Zhang, Yufeng Cheng, Yiming Luo, Fei Ding, Shiwen Zhang, Xinghui Li, Mengtian Li, Songtao Zhao, Jian Zhang, Qian He, Xinglong Wu
cs.AI
Resumen
Recientemente, una amplia investigación sobre personalización de imágenes (por ejemplo, identidad, sujeto, estilo, fondo, etc.) ha demostrado capacidades sólidas de personalización en modelos generativos a gran escala. Sin embargo, la mayoría de los enfoques están diseñados para tareas específicas, lo que limita su generalización para combinar diferentes tipos de condiciones. Desarrollar un marco unificado para la personalización de imágenes sigue siendo un desafío abierto. En este artículo, presentamos DreamO, un marco de personalización de imágenes diseñado para admitir una amplia gama de tareas mientras facilita la integración fluida de múltiples condiciones. Específicamente, DreamO utiliza un marco de transformador de difusión (DiT) para procesar de manera uniforme entradas de diferentes tipos. Durante el entrenamiento, construimos un conjunto de datos de entrenamiento a gran escala que incluye diversas tareas de personalización e introducimos una restricción de enrutamiento de características para facilitar la consulta precisa de información relevante a partir de imágenes de referencia. Además, diseñamos una estrategia de marcadores de posición que asocia marcadores específicos con condiciones en posiciones particulares, permitiendo controlar la ubicación de las condiciones en los resultados generados. Asimismo, empleamos una estrategia de entrenamiento progresivo que consta de tres etapas: una etapa inicial centrada en tareas simples con datos limitados para establecer una consistencia básica, una etapa de entrenamiento a gran escala para mejorar de manera integral las capacidades de personalización, y una etapa final de alineación de calidad para corregir sesgos de calidad introducidos por datos de baja calidad. Experimentos exhaustivos demuestran que el DreamO propuesto puede realizar eficazmente diversas tareas de personalización de imágenes con alta calidad e integrar de manera flexible diferentes tipos de condiciones de control.
English
Recently, extensive research on image customization (e.g., identity, subject,
style, background, etc.) demonstrates strong customization capabilities in
large-scale generative models. However, most approaches are designed for
specific tasks, restricting their generalizability to combine different types
of condition. Developing a unified framework for image customization remains an
open challenge. In this paper, we present DreamO, an image customization
framework designed to support a wide range of tasks while facilitating seamless
integration of multiple conditions. Specifically, DreamO utilizes a diffusion
transformer (DiT) framework to uniformly process input of different types.
During training, we construct a large-scale training dataset that includes
various customization tasks, and we introduce a feature routing constraint to
facilitate the precise querying of relevant information from reference images.
Additionally, we design a placeholder strategy that associates specific
placeholders with conditions at particular positions, enabling control over the
placement of conditions in the generated results. Moreover, we employ a
progressive training strategy consisting of three stages: an initial stage
focused on simple tasks with limited data to establish baseline consistency, a
full-scale training stage to comprehensively enhance the customization
capabilities, and a final quality alignment stage to correct quality biases
introduced by low-quality data. Extensive experiments demonstrate that the
proposed DreamO can effectively perform various image customization tasks with
high quality and flexibly integrate different types of control conditions.Summary
AI-Generated Summary