ViewDiff: Генерация изображений с соблюдением 3D-согласованности с помощью моделей текст-к-изображению
ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models
March 4, 2024
Авторы: Lukas Höllein, Aljaž Božič, Norman Müller, David Novotny, Hung-Yu Tseng, Christian Richardt, Michael Zollhöfer, Matthias Nießner
cs.AI
Аннотация
Генерация 3D-объектов привлекает огромное внимание, вдохновленная недавним успехом создания 2D-контента по текстовому описанию. Существующие методы преобразования текста в 3D используют предварительно обученные модели диффузии текста в изображение в задаче оптимизации или дообучают их на синтетических данных, что часто приводит к созданию нереалистичных 3D-объектов без фона. В данной статье мы представляем метод, который использует предварительно обученные модели преобразования текста в изображение в качестве априорного знания и обучается генерировать многозрительные изображения в единственном процессе денойзинга на основе данных реального мира. Конкретно, мы предлагаем интегрировать объемную визуализацию 3D и слои внимания между кадрами в каждый блок существующей сети U-Net модели преобразования текста в изображение. Более того, мы разрабатываем авторегрессивную генерацию, которая создает более согласованные с 3D изображения с любой точки зрения. Мы обучаем нашу модель на наборах данных объектов реального мира и демонстрируем ее способность генерировать экземпляры с разнообразными формами и текстурами высокого качества в аутентичных окружениях. По сравнению с существующими методами, результаты, полученные нашим методом, согласованы и обладают благоприятным визуальным качеством (-30% FID, -37% KID).
English
3D asset generation is getting massive amounts of attention, inspired by the
recent success of text-guided 2D content creation. Existing text-to-3D methods
use pretrained text-to-image diffusion models in an optimization problem or
fine-tune them on synthetic data, which often results in non-photorealistic 3D
objects without backgrounds. In this paper, we present a method that leverages
pretrained text-to-image models as a prior, and learn to generate multi-view
images in a single denoising process from real-world data. Concretely, we
propose to integrate 3D volume-rendering and cross-frame-attention layers into
each block of the existing U-Net network of the text-to-image model. Moreover,
we design an autoregressive generation that renders more 3D-consistent images
at any viewpoint. We train our model on real-world datasets of objects and
showcase its capabilities to generate instances with a variety of high-quality
shapes and textures in authentic surroundings. Compared to the existing
methods, the results generated by our method are consistent, and have favorable
visual quality (-30% FID, -37% KID).