CustomNet: Zero-shot Object Customisatie met Variabele Gezichtspunten in Tekst-naar-Beeld Diffusiemodellen
CustomNet: Zero-shot Object Customization with Variable-Viewpoints in Text-to-Image Diffusion Models
October 30, 2023
Auteurs: Ziyang Yuan, Mingdeng Cao, Xintao Wang, Zhongang Qi, Chun Yuan, Ying Shan
cs.AI
Samenvatting
Het integreren van een aangepast object in beeldgeneratie biedt een aantrekkelijke functie in tekst-naar-beeldgeneratie. Bestaande optimalisatiegebaseerde en encodergebaseerde methoden worden echter gehinderd door nadelen zoals tijdrovende optimalisatie, onvoldoende identiteitsbehoud en een veelvoorkomend kopieer-plak-effect. Om deze beperkingen te overwinnen, introduceren we CustomNet, een nieuwe benadering voor objectaanpassing die expliciet 3D-nieuwe-weergave-synthesecapaciteiten integreert in het proces van objectaanpassing. Deze integratie vergemakkelijkt de aanpassing van ruimtelijke positierelaties en gezichtspunten, wat resulteert in diverse uitvoer terwijl het objectidentiteit effectief behoudt. Bovendien introduceren we verfijnde ontwerpen om locatiecontrole en flexibele achtergrondcontrole mogelijk te maken via tekstuele beschrijvingen of specifieke door de gebruiker gedefinieerde afbeeldingen, waardoor de beperkingen van bestaande 3D-nieuwe-weergave-synthese methoden worden overwonnen. We maken verder gebruik van een pijplijn voor datasetconstructie die beter om kan gaan met objecten uit de echte wereld en complexe achtergronden. Uitgerust met deze ontwerpen, vergemakkelijkt onze methode zero-shot objectaanpassing zonder optimalisatie tijdens de testfase, en biedt tegelijkertijd controle over de gezichtspunten, locatie en achtergrond. Als resultaat zorgt onze CustomNet voor verbeterd identiteitsbehoud en genereert het diverse, harmonieuze uitvoer.
English
Incorporating a customized object into image generation presents an
attractive feature in text-to-image generation. However, existing
optimization-based and encoder-based methods are hindered by drawbacks such as
time-consuming optimization, insufficient identity preservation, and a
prevalent copy-pasting effect. To overcome these limitations, we introduce
CustomNet, a novel object customization approach that explicitly incorporates
3D novel view synthesis capabilities into the object customization process.
This integration facilitates the adjustment of spatial position relationships
and viewpoints, yielding diverse outputs while effectively preserving object
identity. Moreover, we introduce delicate designs to enable location control
and flexible background control through textual descriptions or specific
user-defined images, overcoming the limitations of existing 3D novel view
synthesis methods. We further leverage a dataset construction pipeline that can
better handle real-world objects and complex backgrounds. Equipped with these
designs, our method facilitates zero-shot object customization without
test-time optimization, offering simultaneous control over the viewpoints,
location, and background. As a result, our CustomNet ensures enhanced identity
preservation and generates diverse, harmonious outputs.