Générez n'importe quoi, n'importe où, dans n'importe quelle scène.
Generate Anything Anywhere in Any Scene
June 29, 2023
Auteurs: Yuheng Li, Haotian Liu, Yangming Wen, Yong Jae Lee
cs.AI
Résumé
Les modèles de diffusion texte-image ont suscité un intérêt considérable en raison de leur large applicabilité dans divers domaines. Cependant, des défis persistent dans la création de modèles contrôlables pour la génération d'objets personnalisés. Dans cet article, nous identifions d'abord les problèmes d'enchevêtrement dans les modèles génératifs personnalisés existants, puis proposons une stratégie d'entraînement par augmentation de données simple et efficace qui guide le modèle de diffusion à se concentrer uniquement sur l'identité de l'objet. En insérant les couches d'adaptation plug-and-play d'un modèle de diffusion contrôlable pré-entraîné, notre modèle acquiert la capacité de contrôler l'emplacement et la taille de chaque objet personnalisé généré. Pendant l'inférence, nous proposons une technique d'échantillonnage guidé par région pour maintenir la qualité et la fidélité des images générées. Notre méthode atteint une fidélité comparable ou supérieure pour les objets personnalisés, produisant un modèle de diffusion texte-image robuste, polyvalent et contrôlable, capable de générer des images réalistes et personnalisées. Notre approche démontre un potentiel significatif pour diverses applications, telles que celles dans les domaines de l'art, du divertissement et de la conception publicitaire.
English
Text-to-image diffusion models have attracted considerable interest due to
their wide applicability across diverse fields. However, challenges persist in
creating controllable models for personalized object generation. In this paper,
we first identify the entanglement issues in existing personalized generative
models, and then propose a straightforward and efficient data augmentation
training strategy that guides the diffusion model to focus solely on object
identity. By inserting the plug-and-play adapter layers from a pre-trained
controllable diffusion model, our model obtains the ability to control the
location and size of each generated personalized object. During inference, we
propose a regionally-guided sampling technique to maintain the quality and
fidelity of the generated images. Our method achieves comparable or superior
fidelity for personalized objects, yielding a robust, versatile, and
controllable text-to-image diffusion model that is capable of generating
realistic and personalized images. Our approach demonstrates significant
potential for various applications, such as those in art, entertainment, and
advertising design.