MV-Adapter: Generación de Imágenes Coherentes Multivista Simplificada
MV-Adapter: Multi-view Consistent Image Generation Made Easy
December 4, 2024
Autores: Zehuan Huang, Yuan-Chen Guo, Haoran Wang, Ran Yi, Lizhuang Ma, Yan-Pei Cao, Lu Sheng
cs.AI
Resumen
Los métodos existentes de generación de imágenes multi-vista a menudo realizan modificaciones invasivas en modelos pre-entrenados de texto a imagen (T2I) y requieren un ajuste fino completo, lo que conlleva (1) altos costos computacionales, especialmente con modelos base grandes e imágenes de alta resolución, y (2) degradación en la calidad de la imagen debido a dificultades de optimización y escasez de datos 3D de alta calidad. En este artículo, proponemos la primera solución basada en adaptadores para la generación de imágenes multi-vista, e introducimos MV-Adapter, un adaptador versátil plug-and-play que mejora los modelos T2I y sus derivados sin alterar la estructura de red original o el espacio de características. Al actualizar menos parámetros, MV-Adapter permite un entrenamiento eficiente y preserva el conocimiento previo incrustado en los modelos pre-entrenados, mitigando los riesgos de sobreajuste. Para modelar eficientemente el conocimiento geométrico 3D dentro del adaptador, introducimos diseños innovadores que incluyen capas de auto-atención duplicadas y una arquitectura de atención paralela, lo que permite que el adaptador herede los potentes conocimientos previos de los modelos pre-entrenados para modelar el nuevo conocimiento 3D. Además, presentamos un codificador de condiciones unificado que integra de manera transparente los parámetros de la cámara y la información geométrica, facilitando aplicaciones como la generación 3D basada en texto e imagen y el texturizado. MV-Adapter logra la generación multi-vista a 768 de resolución en Stable Diffusion XL (SDXL), y demuestra adaptabilidad y versatilidad. También puede extenderse a la generación de vistas arbitrarias, lo que permite aplicaciones más amplias. Demostramos que MV-Adapter establece un nuevo estándar de calidad para la generación de imágenes multi-vista, y abre nuevas posibilidades debido a su eficiencia, adaptabilidad y versatilidad.
English
Existing multi-view image generation methods often make invasive
modifications to pre-trained text-to-image (T2I) models and require full
fine-tuning, leading to (1) high computational costs, especially with large
base models and high-resolution images, and (2) degradation in image quality
due to optimization difficulties and scarce high-quality 3D data. In this
paper, we propose the first adapter-based solution for multi-view image
generation, and introduce MV-Adapter, a versatile plug-and-play adapter that
enhances T2I models and their derivatives without altering the original network
structure or feature space. By updating fewer parameters, MV-Adapter enables
efficient training and preserves the prior knowledge embedded in pre-trained
models, mitigating overfitting risks. To efficiently model the 3D geometric
knowledge within the adapter, we introduce innovative designs that include
duplicated self-attention layers and parallel attention architecture, enabling
the adapter to inherit the powerful priors of the pre-trained models to model
the novel 3D knowledge. Moreover, we present a unified condition encoder that
seamlessly integrates camera parameters and geometric information, facilitating
applications such as text- and image-based 3D generation and texturing.
MV-Adapter achieves multi-view generation at 768 resolution on Stable Diffusion
XL (SDXL), and demonstrates adaptability and versatility. It can also be
extended to arbitrary view generation, enabling broader applications. We
demonstrate that MV-Adapter sets a new quality standard for multi-view image
generation, and opens up new possibilities due to its efficiency, adaptability
and versatility.Summary
AI-Generated Summary