DreamO : Un Cadre Unifié pour la Personnalisation d'Images

papers.abstract

Récemment, des recherches approfondies sur la personnalisation d'images (par exemple, identité, sujet, style, arrière-plan, etc.) ont démontré de solides capacités de personnalisation dans les modèles génératifs à grande échelle. Cependant, la plupart des approches sont conçues pour des tâches spécifiques, limitant ainsi leur généralisabilité à combiner différents types de conditions. Développer un cadre unifié pour la personnalisation d'images reste un défi ouvert. Dans cet article, nous présentons DreamO, un cadre de personnalisation d'images conçu pour prendre en charge un large éventail de tâches tout en facilitant l'intégration transparente de multiples conditions. Plus précisément, DreamO utilise un cadre de transformateur de diffusion (DiT) pour traiter uniformément des entrées de différents types. Pendant l'entraînement, nous construisons un ensemble de données d'entraînement à grande échelle qui inclut diverses tâches de personnalisation, et nous introduisons une contrainte de routage des caractéristiques pour faciliter l'interrogation précise des informations pertinentes à partir des images de référence. De plus, nous concevons une stratégie de placeholders qui associe des placeholders spécifiques à des conditions à des positions particulières, permettant ainsi de contrôler le placement des conditions dans les résultats générés. Par ailleurs, nous employons une stratégie d'entraînement progressive composée de trois étapes : une étape initiale axée sur des tâches simples avec des données limitées pour établir une cohérence de base, une étape d'entraînement à grande échelle pour améliorer de manière exhaustive les capacités de personnalisation, et une étape finale d'alignement de la qualité pour corriger les biais de qualité introduits par des données de faible qualité. Des expériences approfondies démontrent que le DreamO proposé peut effectuer efficacement diverses tâches de personnalisation d'images avec une haute qualité et intégrer de manière flexible différents types de conditions de contrôle.

English

Recently, extensive research on image customization (e.g., identity, subject, style, background, etc.) demonstrates strong customization capabilities in large-scale generative models. However, most approaches are designed for specific tasks, restricting their generalizability to combine different types of condition. Developing a unified framework for image customization remains an open challenge. In this paper, we present DreamO, an image customization framework designed to support a wide range of tasks while facilitating seamless integration of multiple conditions. Specifically, DreamO utilizes a diffusion transformer (DiT) framework to uniformly process input of different types. During training, we construct a large-scale training dataset that includes various customization tasks, and we introduce a feature routing constraint to facilitate the precise querying of relevant information from reference images. Additionally, we design a placeholder strategy that associates specific placeholders with conditions at particular positions, enabling control over the placement of conditions in the generated results. Moreover, we employ a progressive training strategy consisting of three stages: an initial stage focused on simple tasks with limited data to establish baseline consistency, a full-scale training stage to comprehensively enhance the customization capabilities, and a final quality alignment stage to correct quality biases introduced by low-quality data. Extensive experiments demonstrate that the proposed DreamO can effectively perform various image customization tasks with high quality and flexibly integrate different types of control conditions.

DreamO : Un Cadre Unifié pour la Personnalisation d'Images

DreamO: A Unified Framework for Image Customization

papers.abstract

Support