MV-Adapter: Geração Fácil de Imagens Consistentes em Múltiplas Visualizações
MV-Adapter: Multi-view Consistent Image Generation Made Easy
December 4, 2024
Autores: Zehuan Huang, Yuan-Chen Guo, Haoran Wang, Ran Yi, Lizhuang Ma, Yan-Pei Cao, Lu Sheng
cs.AI
Resumo
Os métodos existentes de geração de imagens multi-visão frequentemente realizam modificações invasivas nos modelos pré-treinados texto-para-imagem (T2I) e exigem ajustes finos completos, resultando em (1) altos custos computacionais, especialmente com modelos base grandes e imagens de alta resolução, e (2) degradação na qualidade da imagem devido a dificuldades de otimização e escassez de dados 3D de alta qualidade. Neste artigo, propomos a primeira solução baseada em adaptadores para geração de imagens multi-visão e apresentamos o MV-Adapter, um adaptador versátil plug-and-play que aprimora modelos T2I e suas derivações sem alterar a estrutura de rede original ou o espaço de características. Ao atualizar menos parâmetros, o MV-Adapter permite treinamento eficiente e preserva o conhecimento prévio incorporado nos modelos pré-treinados, mitigando os riscos de overfitting. Para modelar eficientemente o conhecimento geométrico 3D dentro do adaptador, introduzimos designs inovadores que incluem camadas de autoatenção duplicadas e arquitetura de atenção paralela, permitindo que o adaptador herde os poderosos conhecimentos prévios dos modelos pré-treinados para modelar o novo conhecimento 3D. Além disso, apresentamos um codificador de condição unificado que integra perfeitamente parâmetros de câmera e informações geométricas, facilitando aplicações como geração 3D baseada em texto e imagem e texturização. O MV-Adapter alcança geração multi-visão em resolução de 768 no Stable Diffusion XL (SDXL) e demonstra adaptabilidade e versatilidade. Ele também pode ser estendido para geração de visões arbitrárias, possibilitando aplicações mais amplas. Demonstramos que o MV-Adapter estabelece um novo padrão de qualidade para geração de imagens multi-visão e abre novas possibilidades devido à sua eficiência, adaptabilidade e versatilidade.
English
Existing multi-view image generation methods often make invasive
modifications to pre-trained text-to-image (T2I) models and require full
fine-tuning, leading to (1) high computational costs, especially with large
base models and high-resolution images, and (2) degradation in image quality
due to optimization difficulties and scarce high-quality 3D data. In this
paper, we propose the first adapter-based solution for multi-view image
generation, and introduce MV-Adapter, a versatile plug-and-play adapter that
enhances T2I models and their derivatives without altering the original network
structure or feature space. By updating fewer parameters, MV-Adapter enables
efficient training and preserves the prior knowledge embedded in pre-trained
models, mitigating overfitting risks. To efficiently model the 3D geometric
knowledge within the adapter, we introduce innovative designs that include
duplicated self-attention layers and parallel attention architecture, enabling
the adapter to inherit the powerful priors of the pre-trained models to model
the novel 3D knowledge. Moreover, we present a unified condition encoder that
seamlessly integrates camera parameters and geometric information, facilitating
applications such as text- and image-based 3D generation and texturing.
MV-Adapter achieves multi-view generation at 768 resolution on Stable Diffusion
XL (SDXL), and demonstrates adaptability and versatility. It can also be
extended to arbitrary view generation, enabling broader applications. We
demonstrate that MV-Adapter sets a new quality standard for multi-view image
generation, and opens up new possibilities due to its efficiency, adaptability
and versatility.Summary
AI-Generated Summary