MaGRITTe: 画像、トップビュー、テキストからの操作的・生成的3D実現
MaGRITTe: Manipulative and Generative 3D Realization from Image, Topview and Text
March 30, 2024
著者: Takayuki Hara, Tatsuya Harada
cs.AI
要旨
ユーザーが指定した条件から3Dシーンを生成する技術は、3Dアプリケーションにおける制作負担を軽減する有望なアプローチです。従来の研究では、制御条件が限られていたため、所望のシーンを実現するのに多大な労力を要していました。本研究では、部分画像、上面図で表現されたレイアウト情報、およびテキストプロンプトを用いて、マルチモーダル条件の下で3Dシーンを制御・生成する手法を提案します。これらの条件を組み合わせて3Dシーンを生成する際には、以下の主要な課題が存在します:(1)大規模データセットの作成、(2)マルチモーダル条件間の相互作用の反映、(3)レイアウト条件のドメイン依存性です。我々は、3Dシーン生成のプロセスを、与えられた条件からの2D画像生成と、2D画像からの3Dシーン生成に分解します。2D画像生成は、部分画像とレイアウトの小規模な人工データセットを用いて事前学習済みのテキスト-to-画像モデルをファインチューニングすることで実現し、3Dシーン生成は、レイアウト条件付き深度推定とニューラルラジアンスフィールド(NeRF)を用いることで、大規模データセットの作成を回避します。360度画像を用いた空間情報の共通表現を利用することで、マルチモーダル条件間の相互作用を考慮し、レイアウト制御のドメイン依存性を低減します。実験結果は、提案手法が屋内から屋外まで多様なドメインにおいて、マルチモーダル条件に従って3Dシーンを生成できることを定性的・定量的に示しています。
English
The generation of 3D scenes from user-specified conditions offers a promising
avenue for alleviating the production burden in 3D applications. Previous
studies required significant effort to realize the desired scene, owing to
limited control conditions. We propose a method for controlling and generating
3D scenes under multimodal conditions using partial images, layout information
represented in the top view, and text prompts. Combining these conditions to
generate a 3D scene involves the following significant difficulties: (1) the
creation of large datasets, (2) reflection on the interaction of multimodal
conditions, and (3) domain dependence of the layout conditions. We decompose
the process of 3D scene generation into 2D image generation from the given
conditions and 3D scene generation from 2D images. 2D image generation is
achieved by fine-tuning a pretrained text-to-image model with a small
artificial dataset of partial images and layouts, and 3D scene generation is
achieved by layout-conditioned depth estimation and neural radiance fields
(NeRF), thereby avoiding the creation of large datasets. The use of a common
representation of spatial information using 360-degree images allows for the
consideration of multimodal condition interactions and reduces the domain
dependence of the layout control. The experimental results qualitatively and
quantitatively demonstrated that the proposed method can generate 3D scenes in
diverse domains, from indoor to outdoor, according to multimodal conditions.Summary
AI-Generated Summary