MV-Adapter: Leichte Erzeugung konsistenter Bilder aus mehreren Ansichten
MV-Adapter: Multi-view Consistent Image Generation Made Easy
December 4, 2024
Autoren: Zehuan Huang, Yuan-Chen Guo, Haoran Wang, Ran Yi, Lizhuang Ma, Yan-Pei Cao, Lu Sheng
cs.AI
Zusammenfassung
Bestehende Methoden zur Mehrblickbildgenerierung führen oft invasive Änderungen an vortrainierten Text-zu-Bild (T2I) Modellen durch und erfordern eine vollständige Feinabstimmung, was zu (1) hohen Rechenkosten führt, insbesondere bei großen Basismodellen und hochauflösenden Bildern, und (2) zu einer Verschlechterung der Bildqualität aufgrund von Optimierungsschwierigkeiten und einem Mangel an hochwertigen 3D-Daten. In diesem Paper schlagen wir die erste Adapter-basierte Lösung für die Mehrblickbildgenerierung vor und stellen MV-Adapter vor, einen vielseitigen Plug-and-Play-Adapter, der T2I-Modelle und deren Derivate verbessert, ohne die ursprüngliche Netzwerkstruktur oder Merkmalsraum zu verändern. Durch die Aktualisierung weniger Parameter ermöglicht MV-Adapter ein effizientes Training und bewahrt das in den vortrainierten Modellen eingebettete Vorwissen, wodurch Überanpassungsrisiken gemindert werden. Um das 3D-geometrische Wissen effizient innerhalb des Adapters zu modellieren, führen wir innovative Designs ein, die duplizierte Self-Attention-Schichten und eine parallele Aufmerksamkeitsarchitektur umfassen, was es dem Adapter ermöglicht, die leistungsstarken Vorkenntnisse der vortrainierten Modelle zur Modellierung des neuen 3D-Wissens zu erben. Darüber hinaus präsentieren wir einen vereinheitlichten Bedingungsencoder, der Kameraparameter und geometrische Informationen nahtlos integriert und Anwendungen wie text- und bildbasierte 3D-Generierung und Texturierung erleichtert. MV-Adapter erreicht eine Mehrblickgenerierung mit 768 Auflösung auf Stable Diffusion XL (SDXL) und zeigt Anpassungsfähigkeit und Vielseitigkeit. Es kann auch auf beliebige Blickwinkelgenerierung erweitert werden, was breitere Anwendungen ermöglicht. Wir zeigen, dass MV-Adapter einen neuen Qualitätsstandard für die Mehrblickbildgenerierung setzt und aufgrund seiner Effizienz, Anpassungsfähigkeit und Vielseitigkeit neue Möglichkeiten eröffnet.
English
Existing multi-view image generation methods often make invasive
modifications to pre-trained text-to-image (T2I) models and require full
fine-tuning, leading to (1) high computational costs, especially with large
base models and high-resolution images, and (2) degradation in image quality
due to optimization difficulties and scarce high-quality 3D data. In this
paper, we propose the first adapter-based solution for multi-view image
generation, and introduce MV-Adapter, a versatile plug-and-play adapter that
enhances T2I models and their derivatives without altering the original network
structure or feature space. By updating fewer parameters, MV-Adapter enables
efficient training and preserves the prior knowledge embedded in pre-trained
models, mitigating overfitting risks. To efficiently model the 3D geometric
knowledge within the adapter, we introduce innovative designs that include
duplicated self-attention layers and parallel attention architecture, enabling
the adapter to inherit the powerful priors of the pre-trained models to model
the novel 3D knowledge. Moreover, we present a unified condition encoder that
seamlessly integrates camera parameters and geometric information, facilitating
applications such as text- and image-based 3D generation and texturing.
MV-Adapter achieves multi-view generation at 768 resolution on Stable Diffusion
XL (SDXL), and demonstrates adaptability and versatility. It can also be
extended to arbitrary view generation, enabling broader applications. We
demonstrate that MV-Adapter sets a new quality standard for multi-view image
generation, and opens up new possibilities due to its efficiency, adaptability
and versatility.Summary
AI-Generated Summary