MV-Adapter: Gemakkelijke generatie van consistente beelden vanuit meerdere gezichtspunten
MV-Adapter: Multi-view Consistent Image Generation Made Easy
December 4, 2024
Auteurs: Zehuan Huang, Yuan-Chen Guo, Haoran Wang, Ran Yi, Lizhuang Ma, Yan-Pei Cao, Lu Sheng
cs.AI
Samenvatting
Bestaande methoden voor het genereren van multi-view afbeeldingen brengen vaak ingrijpende wijzigingen aan in vooraf getrainde tekst-naar-afbeelding (T2I) modellen en vereisen volledige fijnafstemming, wat leidt tot (1) hoge computationele kosten, vooral bij grote basismodellen en hoge-resolutie afbeeldingen, en (2) degradatie in beeldkwaliteit als gevolg van optimalisatieproblemen en schaarse hoogwaardige 3D-gegevens. In dit artikel stellen we de eerste adapter-gebaseerde oplossing voor multi-view afbeeldingsgeneratie voor en introduceren we MV-Adapter, een veelzijdige plug-and-play adapter die T2I modellen en hun derivaten verbetert zonder de oorspronkelijke netwerkstructuur of kenmerkruimte te wijzigen. Door minder parameters bij te werken, maakt MV-Adapter efficiënte training mogelijk en behoudt het de eerder ingebedde kennis in vooraf getrainde modellen, waardoor overpassingrisico's worden verminderd. Om de 3D geometrische kennis efficiënt binnen de adapter te modelleren, introduceren we innovatieve ontwerpen die onder andere gedupliceerde zelfaandachtslagen en parallelle aandachtsarchitectuur omvatten, waardoor de adapter de krachtige aannames van de vooraf getrainde modellen kan erven om de nieuwe 3D-kennis te modelleren. Bovendien presenteren we een verenigde conditie-encoder die naadloos camera parameters en geometrische informatie integreert, waardoor toepassingen zoals tekst- en afbeeldingsgebaseerde 3D-generatie en texturering worden vergemakkelijkt. MV-Adapter bereikt multi-view generatie op 768 resolutie op Stable Diffusion XL (SDXL) en toont aanpasbaarheid en veelzijdigheid. Het kan ook worden uitgebreid naar willekeurige weergavegeneratie, waardoor bredere toepassingen mogelijk zijn. We tonen aan dat MV-Adapter een nieuwe kwaliteitsstandaard zet voor multi-view afbeeldingsgeneratie en nieuwe mogelijkheden opent vanwege zijn efficiëntie, aanpasbaarheid en veelzijdigheid.
English
Existing multi-view image generation methods often make invasive
modifications to pre-trained text-to-image (T2I) models and require full
fine-tuning, leading to (1) high computational costs, especially with large
base models and high-resolution images, and (2) degradation in image quality
due to optimization difficulties and scarce high-quality 3D data. In this
paper, we propose the first adapter-based solution for multi-view image
generation, and introduce MV-Adapter, a versatile plug-and-play adapter that
enhances T2I models and their derivatives without altering the original network
structure or feature space. By updating fewer parameters, MV-Adapter enables
efficient training and preserves the prior knowledge embedded in pre-trained
models, mitigating overfitting risks. To efficiently model the 3D geometric
knowledge within the adapter, we introduce innovative designs that include
duplicated self-attention layers and parallel attention architecture, enabling
the adapter to inherit the powerful priors of the pre-trained models to model
the novel 3D knowledge. Moreover, we present a unified condition encoder that
seamlessly integrates camera parameters and geometric information, facilitating
applications such as text- and image-based 3D generation and texturing.
MV-Adapter achieves multi-view generation at 768 resolution on Stable Diffusion
XL (SDXL), and demonstrates adaptability and versatility. It can also be
extended to arbitrary view generation, enabling broader applications. We
demonstrate that MV-Adapter sets a new quality standard for multi-view image
generation, and opens up new possibilities due to its efficiency, adaptability
and versatility.