MaGRITTe: Манипулятивное и Генеративное 3D Воплощение из Изображения, Верхнего Вида и Текста
MaGRITTe: Manipulative and Generative 3D Realization from Image, Topview and Text
March 30, 2024
Авторы: Takayuki Hara, Tatsuya Harada
cs.AI
Аннотация
Генерация трехмерных сцен из пользовательских условий предлагает многообещающий подход для снижения трудозатрат в приложениях трехмерной графики. Предыдущие исследования требовали значительных усилий для достижения желаемой сцены из-за ограниченных условий управления. Мы предлагаем метод управления и генерации трехмерных сцен в мультимодальных условиях с использованием частичных изображений, информации о компоновке, представленной в виде верхнего вида, и текстовых подсказок. Комбинирование этих условий для генерации трехмерной сцены включает следующие значительные трудности: (1) создание больших наборов данных, (2) рефлексию взаимодействия мультимодальных условий и (3) зависимость от домена условий компоновки. Мы декомпозируем процесс генерации трехмерной сцены на генерацию двумерного изображения из заданных условий и генерацию трехмерной сцены из двумерных изображений. Генерация двумерного изображения достигается путем донастройки предварительно обученной модели текст-к-изображению с небольшим искусственным набором данных частичных изображений и компоновок, а генерация трехмерной сцены достигается путем оценки глубины с учетом компоновки и использования нейронных поля яркости (NeRF), тем самым избегая создания больших наборов данных. Использование общего представления пространственной информации с использованием изображений 360 градусов позволяет учитывать взаимодействия мультимодальных условий и снижает зависимость от домена управления компоновкой. Экспериментальные результаты качественно и количественно продемонстрировали, что предложенный метод способен генерировать трехмерные сцены в различных доменах, от внутренних до внешних, в соответствии с мультимодальными условиями.
English
The generation of 3D scenes from user-specified conditions offers a promising
avenue for alleviating the production burden in 3D applications. Previous
studies required significant effort to realize the desired scene, owing to
limited control conditions. We propose a method for controlling and generating
3D scenes under multimodal conditions using partial images, layout information
represented in the top view, and text prompts. Combining these conditions to
generate a 3D scene involves the following significant difficulties: (1) the
creation of large datasets, (2) reflection on the interaction of multimodal
conditions, and (3) domain dependence of the layout conditions. We decompose
the process of 3D scene generation into 2D image generation from the given
conditions and 3D scene generation from 2D images. 2D image generation is
achieved by fine-tuning a pretrained text-to-image model with a small
artificial dataset of partial images and layouts, and 3D scene generation is
achieved by layout-conditioned depth estimation and neural radiance fields
(NeRF), thereby avoiding the creation of large datasets. The use of a common
representation of spatial information using 360-degree images allows for the
consideration of multimodal condition interactions and reduces the domain
dependence of the layout control. The experimental results qualitatively and
quantitatively demonstrated that the proposed method can generate 3D scenes in
diverse domains, from indoor to outdoor, according to multimodal conditions.Summary
AI-Generated Summary