DreamO : Un Cadre Unifié pour la Personnalisation d'Images
DreamO: A Unified Framework for Image Customization
April 23, 2025
Auteurs: Chong Mou, Yanze Wu, Wenxu Wu, Zinan Guo, Pengze Zhang, Yufeng Cheng, Yiming Luo, Fei Ding, Shiwen Zhang, Xinghui Li, Mengtian Li, Songtao Zhao, Jian Zhang, Qian He, Xinglong Wu
cs.AI
Résumé
Récemment, des recherches approfondies sur la personnalisation d'images (par exemple, identité, sujet, style, arrière-plan, etc.) ont démontré de solides capacités de personnalisation dans les modèles génératifs à grande échelle. Cependant, la plupart des approches sont conçues pour des tâches spécifiques, limitant ainsi leur généralisabilité à combiner différents types de conditions. Développer un cadre unifié pour la personnalisation d'images reste un défi ouvert. Dans cet article, nous présentons DreamO, un cadre de personnalisation d'images conçu pour prendre en charge un large éventail de tâches tout en facilitant l'intégration transparente de multiples conditions. Plus précisément, DreamO utilise un cadre de transformateur de diffusion (DiT) pour traiter uniformément des entrées de différents types. Pendant l'entraînement, nous construisons un ensemble de données d'entraînement à grande échelle qui inclut diverses tâches de personnalisation, et nous introduisons une contrainte de routage des caractéristiques pour faciliter l'interrogation précise des informations pertinentes à partir des images de référence. De plus, nous concevons une stratégie de placeholders qui associe des placeholders spécifiques à des conditions à des positions particulières, permettant ainsi de contrôler le placement des conditions dans les résultats générés. Par ailleurs, nous employons une stratégie d'entraînement progressive composée de trois étapes : une étape initiale axée sur des tâches simples avec des données limitées pour établir une cohérence de base, une étape d'entraînement à grande échelle pour améliorer de manière exhaustive les capacités de personnalisation, et une étape finale d'alignement de la qualité pour corriger les biais de qualité introduits par des données de faible qualité. Des expériences approfondies démontrent que le DreamO proposé peut effectuer efficacement diverses tâches de personnalisation d'images avec une haute qualité et intégrer de manière flexible différents types de conditions de contrôle.
English
Recently, extensive research on image customization (e.g., identity, subject,
style, background, etc.) demonstrates strong customization capabilities in
large-scale generative models. However, most approaches are designed for
specific tasks, restricting their generalizability to combine different types
of condition. Developing a unified framework for image customization remains an
open challenge. In this paper, we present DreamO, an image customization
framework designed to support a wide range of tasks while facilitating seamless
integration of multiple conditions. Specifically, DreamO utilizes a diffusion
transformer (DiT) framework to uniformly process input of different types.
During training, we construct a large-scale training dataset that includes
various customization tasks, and we introduce a feature routing constraint to
facilitate the precise querying of relevant information from reference images.
Additionally, we design a placeholder strategy that associates specific
placeholders with conditions at particular positions, enabling control over the
placement of conditions in the generated results. Moreover, we employ a
progressive training strategy consisting of three stages: an initial stage
focused on simple tasks with limited data to establish baseline consistency, a
full-scale training stage to comprehensively enhance the customization
capabilities, and a final quality alignment stage to correct quality biases
introduced by low-quality data. Extensive experiments demonstrate that the
proposed DreamO can effectively perform various image customization tasks with
high quality and flexibly integrate different types of control conditions.Summary
AI-Generated Summary