MaGRITTe: 이미지, 탑뷰 및 텍스트를 활용한 조작적·생성적 3D 구현
MaGRITTe: Manipulative and Generative 3D Realization from Image, Topview and Text
March 30, 2024
저자: Takayuki Hara, Tatsuya Harada
cs.AI
초록
사용자가 지정한 조건에서 3D 장면을 생성하는 것은 3D 애플리케이션의 제작 부담을 줄이는 유망한 방법을 제공합니다. 기존 연구에서는 제한된 제어 조건으로 인해 원하는 장면을 구현하기 위해 상당한 노력이 필요했습니다. 우리는 부분 이미지, 평면도로 표현된 레이아웃 정보, 그리고 텍스트 프롬프트를 사용하여 다중 모달 조건 하에서 3D 장면을 제어하고 생성하는 방법을 제안합니다. 이러한 조건들을 결합하여 3D 장면을 생성하는 데에는 다음과 같은 주요 어려움이 있습니다: (1) 대규모 데이터셋의 생성, (2) 다중 모달 조건 간 상호작용의 반영, (3) 레이아웃 조건의 도메인 의존성. 우리는 3D 장면 생성 과정을 주어진 조건에서 2D 이미지 생성과 2D 이미지에서 3D 장면 생성으로 분해합니다. 2D 이미지 생성은 부분 이미지와 레이아웃으로 구성된 소규모 인공 데이터셋을 사용하여 사전 훈련된 텍스트-이미지 모델을 미세 조정함으로써 달성되며, 3D 장면 생성은 레이아웃 조건 하의 깊이 추정과 신경 방사 필드(NeRF)를 통해 이루어져 대규모 데이터셋 생성의 필요성을 피합니다. 360도 이미지를 사용한 공간 정보의 공통 표현 방식은 다중 모달 조건 간 상호작용을 고려할 수 있게 하고 레이아웃 제어의 도메인 의존성을 줄입니다. 실험 결과는 제안된 방법이 실내에서 실외에 이르기까지 다양한 도메인에서 다중 모달 조건에 따라 3D 장면을 생성할 수 있음을 정성적 및 정량적으로 입증했습니다.
English
The generation of 3D scenes from user-specified conditions offers a promising
avenue for alleviating the production burden in 3D applications. Previous
studies required significant effort to realize the desired scene, owing to
limited control conditions. We propose a method for controlling and generating
3D scenes under multimodal conditions using partial images, layout information
represented in the top view, and text prompts. Combining these conditions to
generate a 3D scene involves the following significant difficulties: (1) the
creation of large datasets, (2) reflection on the interaction of multimodal
conditions, and (3) domain dependence of the layout conditions. We decompose
the process of 3D scene generation into 2D image generation from the given
conditions and 3D scene generation from 2D images. 2D image generation is
achieved by fine-tuning a pretrained text-to-image model with a small
artificial dataset of partial images and layouts, and 3D scene generation is
achieved by layout-conditioned depth estimation and neural radiance fields
(NeRF), thereby avoiding the creation of large datasets. The use of a common
representation of spatial information using 360-degree images allows for the
consideration of multimodal condition interactions and reduces the domain
dependence of the layout control. The experimental results qualitatively and
quantitatively demonstrated that the proposed method can generate 3D scenes in
diverse domains, from indoor to outdoor, according to multimodal conditions.Summary
AI-Generated Summary