DreamO: Un Marco Unificado para la Personalización de Imágenes

Resumen

Recientemente, una amplia investigación sobre personalización de imágenes (por ejemplo, identidad, sujeto, estilo, fondo, etc.) ha demostrado capacidades sólidas de personalización en modelos generativos a gran escala. Sin embargo, la mayoría de los enfoques están diseñados para tareas específicas, lo que limita su generalización para combinar diferentes tipos de condiciones. Desarrollar un marco unificado para la personalización de imágenes sigue siendo un desafío abierto. En este artículo, presentamos DreamO, un marco de personalización de imágenes diseñado para admitir una amplia gama de tareas mientras facilita la integración fluida de múltiples condiciones. Específicamente, DreamO utiliza un marco de transformador de difusión (DiT) para procesar de manera uniforme entradas de diferentes tipos. Durante el entrenamiento, construimos un conjunto de datos de entrenamiento a gran escala que incluye diversas tareas de personalización e introducimos una restricción de enrutamiento de características para facilitar la consulta precisa de información relevante a partir de imágenes de referencia. Además, diseñamos una estrategia de marcadores de posición que asocia marcadores específicos con condiciones en posiciones particulares, permitiendo controlar la ubicación de las condiciones en los resultados generados. Asimismo, empleamos una estrategia de entrenamiento progresivo que consta de tres etapas: una etapa inicial centrada en tareas simples con datos limitados para establecer una consistencia básica, una etapa de entrenamiento a gran escala para mejorar de manera integral las capacidades de personalización, y una etapa final de alineación de calidad para corregir sesgos de calidad introducidos por datos de baja calidad. Experimentos exhaustivos demuestran que el DreamO propuesto puede realizar eficazmente diversas tareas de personalización de imágenes con alta calidad e integrar de manera flexible diferentes tipos de condiciones de control.

English

Recently, extensive research on image customization (e.g., identity, subject, style, background, etc.) demonstrates strong customization capabilities in large-scale generative models. However, most approaches are designed for specific tasks, restricting their generalizability to combine different types of condition. Developing a unified framework for image customization remains an open challenge. In this paper, we present DreamO, an image customization framework designed to support a wide range of tasks while facilitating seamless integration of multiple conditions. Specifically, DreamO utilizes a diffusion transformer (DiT) framework to uniformly process input of different types. During training, we construct a large-scale training dataset that includes various customization tasks, and we introduce a feature routing constraint to facilitate the precise querying of relevant information from reference images. Additionally, we design a placeholder strategy that associates specific placeholders with conditions at particular positions, enabling control over the placement of conditions in the generated results. Moreover, we employ a progressive training strategy consisting of three stages: an initial stage focused on simple tasks with limited data to establish baseline consistency, a full-scale training stage to comprehensively enhance the customization capabilities, and a final quality alignment stage to correct quality biases introduced by low-quality data. Extensive experiments demonstrate that the proposed DreamO can effectively perform various image customization tasks with high quality and flexibly integrate different types of control conditions.

DreamO: Un Marco Unificado para la Personalización de Imágenes

DreamO: A Unified Framework for Image Customization

Resumen

Support