Adaptateur MV : Génération Facile d'Images Cohérentes à Plusieurs Vues
MV-Adapter: Multi-view Consistent Image Generation Made Easy
December 4, 2024
Auteurs: Zehuan Huang, Yuan-Chen Guo, Haoran Wang, Ran Yi, Lizhuang Ma, Yan-Pei Cao, Lu Sheng
cs.AI
Résumé
Les méthodes existantes de génération d'images multi-vues modifient souvent de manière invasive les modèles texte-vers-image (T2I) pré-entraînés et nécessitent un réglage fin complet, entraînant (1) des coûts computationnels élevés, notamment avec de grands modèles de base et des images haute résolution, et (2) une dégradation de la qualité des images en raison de difficultés d'optimisation et d'un manque de données 3D de haute qualité. Dans cet article, nous proposons la première solution basée sur des adaptateurs pour la génération d'images multi-vues, et introduisons MV-Adapter, un adaptateur polyvalent plug-and-play qui améliore les modèles T2I et leurs dérivés sans altérer la structure réseau d'origine ou l'espace des caractéristiques. En mettant à jour moins de paramètres, MV-Adapter permet un entraînement efficace et préserve les connaissances antérieures intégrées dans les modèles pré-entraînés, atténuant les risques de surajustement. Pour modéliser efficacement les connaissances géométriques 3D au sein de l'adaptateur, nous introduisons des conceptions innovantes qui incluent des couches d'auto-attention dupliquées et une architecture d'attention parallèle, permettant à l'adaptateur d'hériter des puissantes connaissances antérieures des modèles pré-entraînés pour modéliser les nouvelles connaissances 3D. De plus, nous présentons un encodeur de conditions unifié qui intègre de manière transparente les paramètres de la caméra et les informations géométriques, facilitant des applications telles que la génération 3D basée sur du texte et des images et la texturation. MV-Adapter réalise une génération multi-vues à une résolution de 768 sur Stable Diffusion XL (SDXL), et démontre son adaptabilité et sa polyvalence. Il peut également être étendu à la génération de vues arbitraires, permettant des applications plus larges. Nous démontrons que MV-Adapter établit une nouvelle norme de qualité pour la génération d'images multi-vues, et ouvre de nouvelles possibilités en raison de son efficacité, de son adaptabilité et de sa polyvalence.
English
Existing multi-view image generation methods often make invasive
modifications to pre-trained text-to-image (T2I) models and require full
fine-tuning, leading to (1) high computational costs, especially with large
base models and high-resolution images, and (2) degradation in image quality
due to optimization difficulties and scarce high-quality 3D data. In this
paper, we propose the first adapter-based solution for multi-view image
generation, and introduce MV-Adapter, a versatile plug-and-play adapter that
enhances T2I models and their derivatives without altering the original network
structure or feature space. By updating fewer parameters, MV-Adapter enables
efficient training and preserves the prior knowledge embedded in pre-trained
models, mitigating overfitting risks. To efficiently model the 3D geometric
knowledge within the adapter, we introduce innovative designs that include
duplicated self-attention layers and parallel attention architecture, enabling
the adapter to inherit the powerful priors of the pre-trained models to model
the novel 3D knowledge. Moreover, we present a unified condition encoder that
seamlessly integrates camera parameters and geometric information, facilitating
applications such as text- and image-based 3D generation and texturing.
MV-Adapter achieves multi-view generation at 768 resolution on Stable Diffusion
XL (SDXL), and demonstrates adaptability and versatility. It can also be
extended to arbitrary view generation, enabling broader applications. We
demonstrate that MV-Adapter sets a new quality standard for multi-view image
generation, and opens up new possibilities due to its efficiency, adaptability
and versatility.Summary
AI-Generated Summary