CustomNet: Null-Shot-Objektanpassung mit variablen Blickwinkeln in Text-zu-Bild-Diffusionsmodellen
CustomNet: Zero-shot Object Customization with Variable-Viewpoints in Text-to-Image Diffusion Models
October 30, 2023
papers.authors: Ziyang Yuan, Mingdeng Cao, Xintao Wang, Zhongang Qi, Chun Yuan, Ying Shan
cs.AI
papers.abstract
Die Integration eines benutzerdefinierten Objekts in die Bildgenerierung stellt eine attraktive Funktion in der Text-zu-Bild-Generierung dar. Allerdings werden bestehende optimierungsbasierte und encoderbasierte Methoden durch Nachteile wie zeitaufwändige Optimierung, unzureichende Identitätserhaltung und einen weit verbreiteten Copy-Paste-Effekt behindert. Um diese Einschränkungen zu überwinden, führen wir CustomNet ein, einen neuartigen Ansatz zur Objektanpassung, der explizit 3D-Neuansichtssynthese-Fähigkeiten in den Anpassungsprozess integriert. Diese Integration erleichtert die Anpassung räumlicher Positionsbeziehungen und Blickwinkel, was zu vielfältigen Ergebnissen führt und gleichzeitig die Objektidentität effektiv bewahrt. Darüber hinaus führen wir fein abgestimmte Designs ein, die eine Positionskontrolle und flexible Hintergrundkontrolle durch textuelle Beschreibungen oder spezifische benutzerdefinierte Bilder ermöglichen, wodurch die Einschränkungen bestehender 3D-Neuansichtssynthese-Methoden überwunden werden. Wir nutzen weiterhin eine Datensatzerstellungspipeline, die besser mit realen Objekten und komplexen Hintergründen umgehen kann. Ausgestattet mit diesen Designs ermöglicht unsere Methode eine Zero-Shot-Objektanpassung ohne Optimierung zur Testzeit und bietet gleichzeitige Kontrolle über die Blickwinkel, Position und den Hintergrund. Dadurch gewährleistet unser CustomNet eine verbesserte Identitätserhaltung und erzeugt vielfältige, harmonische Ergebnisse.
English
Incorporating a customized object into image generation presents an
attractive feature in text-to-image generation. However, existing
optimization-based and encoder-based methods are hindered by drawbacks such as
time-consuming optimization, insufficient identity preservation, and a
prevalent copy-pasting effect. To overcome these limitations, we introduce
CustomNet, a novel object customization approach that explicitly incorporates
3D novel view synthesis capabilities into the object customization process.
This integration facilitates the adjustment of spatial position relationships
and viewpoints, yielding diverse outputs while effectively preserving object
identity. Moreover, we introduce delicate designs to enable location control
and flexible background control through textual descriptions or specific
user-defined images, overcoming the limitations of existing 3D novel view
synthesis methods. We further leverage a dataset construction pipeline that can
better handle real-world objects and complex backgrounds. Equipped with these
designs, our method facilitates zero-shot object customization without
test-time optimization, offering simultaneous control over the viewpoints,
location, and background. As a result, our CustomNet ensures enhanced identity
preservation and generates diverse, harmonious outputs.