Générez n'importe quoi, n'importe où, dans n'importe quelle scène.

Résumé

Les modèles de diffusion texte-image ont suscité un intérêt considérable en raison de leur large applicabilité dans divers domaines. Cependant, des défis persistent dans la création de modèles contrôlables pour la génération d'objets personnalisés. Dans cet article, nous identifions d'abord les problèmes d'enchevêtrement dans les modèles génératifs personnalisés existants, puis proposons une stratégie d'entraînement par augmentation de données simple et efficace qui guide le modèle de diffusion à se concentrer uniquement sur l'identité de l'objet. En insérant les couches d'adaptation plug-and-play d'un modèle de diffusion contrôlable pré-entraîné, notre modèle acquiert la capacité de contrôler l'emplacement et la taille de chaque objet personnalisé généré. Pendant l'inférence, nous proposons une technique d'échantillonnage guidé par région pour maintenir la qualité et la fidélité des images générées. Notre méthode atteint une fidélité comparable ou supérieure pour les objets personnalisés, produisant un modèle de diffusion texte-image robuste, polyvalent et contrôlable, capable de générer des images réalistes et personnalisées. Notre approche démontre un potentiel significatif pour diverses applications, telles que celles dans les domaines de l'art, du divertissement et de la conception publicitaire.

English

Text-to-image diffusion models have attracted considerable interest due to their wide applicability across diverse fields. However, challenges persist in creating controllable models for personalized object generation. In this paper, we first identify the entanglement issues in existing personalized generative models, and then propose a straightforward and efficient data augmentation training strategy that guides the diffusion model to focus solely on object identity. By inserting the plug-and-play adapter layers from a pre-trained controllable diffusion model, our model obtains the ability to control the location and size of each generated personalized object. During inference, we propose a regionally-guided sampling technique to maintain the quality and fidelity of the generated images. Our method achieves comparable or superior fidelity for personalized objects, yielding a robust, versatile, and controllable text-to-image diffusion model that is capable of generating realistic and personalized images. Our approach demonstrates significant potential for various applications, such as those in art, entertainment, and advertising design.

Générez n'importe quoi, n'importe où, dans n'importe quelle scène.

Generate Anything Anywhere in Any Scene

Résumé

Support