CustomNet : Personnalisation d'objets en zero-shot avec des points de vue variables dans les modèles de diffusion texte-image
CustomNet: Zero-shot Object Customization with Variable-Viewpoints in Text-to-Image Diffusion Models
October 30, 2023
papers.authors: Ziyang Yuan, Mingdeng Cao, Xintao Wang, Zhongang Qi, Chun Yuan, Ying Shan
cs.AI
papers.abstract
L'intégration d'un objet personnalisé dans la génération d'images représente une fonctionnalité attrayante dans la génération d'images à partir de texte. Cependant, les méthodes existantes basées sur l'optimisation et sur les encodeurs sont entravées par des inconvénients tels qu'une optimisation chronophage, une préservation insuffisante de l'identité et un effet de copier-coller prédominant. Pour surmonter ces limitations, nous introduisons CustomNet, une nouvelle approche de personnalisation d'objets qui intègre explicitement des capacités de synthèse de vues 3D novatrices dans le processus de personnalisation d'objets. Cette intégration facilite l'ajustement des relations de position spatiale et des points de vue, produisant des résultats variés tout en préservant efficacement l'identité de l'objet. De plus, nous introduisons des conceptions délicates pour permettre un contrôle de l'emplacement et un contrôle flexible de l'arrière-plan grâce à des descriptions textuelles ou à des images spécifiques définies par l'utilisateur, surmontant ainsi les limites des méthodes existantes de synthèse de vues 3D novatrices. Nous exploitons également un pipeline de construction de jeu de données qui peut mieux gérer les objets du monde réel et les arrière-plans complexes. Dotée de ces conceptions, notre méthode facilite la personnalisation d'objets en zero-shot sans optimisation au moment du test, offrant un contrôle simultané sur les points de vue, l'emplacement et l'arrière-plan. En conséquence, notre CustomNet garantit une préservation améliorée de l'identité et génère des résultats variés et harmonieux.
English
Incorporating a customized object into image generation presents an
attractive feature in text-to-image generation. However, existing
optimization-based and encoder-based methods are hindered by drawbacks such as
time-consuming optimization, insufficient identity preservation, and a
prevalent copy-pasting effect. To overcome these limitations, we introduce
CustomNet, a novel object customization approach that explicitly incorporates
3D novel view synthesis capabilities into the object customization process.
This integration facilitates the adjustment of spatial position relationships
and viewpoints, yielding diverse outputs while effectively preserving object
identity. Moreover, we introduce delicate designs to enable location control
and flexible background control through textual descriptions or specific
user-defined images, overcoming the limitations of existing 3D novel view
synthesis methods. We further leverage a dataset construction pipeline that can
better handle real-world objects and complex backgrounds. Equipped with these
designs, our method facilitates zero-shot object customization without
test-time optimization, offering simultaneous control over the viewpoints,
location, and background. As a result, our CustomNet ensures enhanced identity
preservation and generates diverse, harmonious outputs.