MV-Адаптер: Создание изображений с согласованными представлениями из нескольких видов источников данных сделано просто
MV-Adapter: Multi-view Consistent Image Generation Made Easy
December 4, 2024
Авторы: Zehuan Huang, Yuan-Chen Guo, Haoran Wang, Ran Yi, Lizhuang Ma, Yan-Pei Cao, Lu Sheng
cs.AI
Аннотация
Существующие методы генерации многозрительных изображений часто вносят инвазивные изменения в предварительно обученные модели текст-к-изображению (T2I) и требуют полной донастройки, что приводит к (1) высоким вычислительным затратам, особенно с большими базовыми моделями и изображениями высокого разрешения, и (2) ухудшению качества изображения из-за сложностей оптимизации и недостатка высококачественных 3D данных. В данной статье мы предлагаем первое решение на основе адаптеров для генерации многозрительных изображений и представляем MV-Adapter, универсальный адаптер plug-and-play, который улучшает модели T2I и их производные, не изменяя оригинальную структуру сети или пространство признаков. Обновляя меньшее количество параметров, MV-Adapter обеспечивает эффективное обучение и сохраняет встроенные в предварительно обученные модели знания, снижая риски переобучения. Для эффективного моделирования геометрических знаний 3D внутри адаптера мы предлагаем инновационные конструкции, включающие дублированные слои самовнимания и параллельную архитектуру внимания, позволяющие адаптеру наследовать мощные априорные знания предварительно обученных моделей для моделирования новых 3D знаний. Более того, мы представляем объединенный кодер условий, который плавно интегрирует параметры камеры и геометрическую информацию, облегчая приложения, такие как генерация 3D на основе текста и изображений и текстурирование. MV-Adapter достигает генерации многозрительных изображений с разрешением 768 на Stable Diffusion XL (SDXL) и демонстрирует адаптивность и универсальность. Он также может быть расширен до генерации произвольных видов, обеспечивая более широкие применения. Мы показываем, что MV-Adapter устанавливает новый стандарт качества для генерации многозрительных изображений и открывает новые возможности благодаря своей эффективности, адаптивности и универсальности.
English
Existing multi-view image generation methods often make invasive
modifications to pre-trained text-to-image (T2I) models and require full
fine-tuning, leading to (1) high computational costs, especially with large
base models and high-resolution images, and (2) degradation in image quality
due to optimization difficulties and scarce high-quality 3D data. In this
paper, we propose the first adapter-based solution for multi-view image
generation, and introduce MV-Adapter, a versatile plug-and-play adapter that
enhances T2I models and their derivatives without altering the original network
structure or feature space. By updating fewer parameters, MV-Adapter enables
efficient training and preserves the prior knowledge embedded in pre-trained
models, mitigating overfitting risks. To efficiently model the 3D geometric
knowledge within the adapter, we introduce innovative designs that include
duplicated self-attention layers and parallel attention architecture, enabling
the adapter to inherit the powerful priors of the pre-trained models to model
the novel 3D knowledge. Moreover, we present a unified condition encoder that
seamlessly integrates camera parameters and geometric information, facilitating
applications such as text- and image-based 3D generation and texturing.
MV-Adapter achieves multi-view generation at 768 resolution on Stable Diffusion
XL (SDXL), and demonstrates adaptability and versatility. It can also be
extended to arbitrary view generation, enabling broader applications. We
demonstrate that MV-Adapter sets a new quality standard for multi-view image
generation, and opens up new possibilities due to its efficiency, adaptability
and versatility.Summary
AI-Generated Summary