ChatPaper.aiChatPaper

GALA3D:レイアウト誘導型生成ガウススプラッティングによるテキストから3D複雑シーン生成へのアプローチ

GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting

February 11, 2024
著者: Xiaoyu Zhou, Xingjian Ran, Yajiao Xiong, Jinlin He, Zhiwei Lin, Yongtao Wang, Deqing Sun, Ming-Hsuan Yang
cs.AI

要旨

本論文では、効果的な構成的テキストから3D生成のためのGALA3D(Generative 3D GAussians with LAyout-guided control)を提案します。まず、大規模言語モデル(LLMs)を活用して初期レイアウトを生成し、適応的な幾何学的制約を伴うレイアウト誘導型3Dガウシアン表現を導入します。次に、条件付き拡散を用いたオブジェクト-シーン構成的最適化メカニズムを提案し、一貫した幾何学、テクスチャ、スケール、および複数のオブジェクト間の正確な相互作用を備えた現実的な3Dシーンを協調的に生成します。同時に、LLMsから抽出された粗いレイアウト事前情報を生成されたシーンに合わせて調整します。実験結果から、GALA3Dはユーザーフレンドリーでエンドツーエンドのフレームワークであり、最先端のシーンレベル3Dコンテンツ生成と制御可能な編集を実現しつつ、シーン内のオブジェクトレベルのエンティティの高忠実度を保証します。ソースコードとモデルはhttps://gala3d.github.io/で公開予定です。
English
We present GALA3D, generative 3D GAussians with LAyout-guided control, for effective compositional text-to-3D generation. We first utilize large language models (LLMs) to generate the initial layout and introduce a layout-guided 3D Gaussian representation for 3D content generation with adaptive geometric constraints. We then propose an object-scene compositional optimization mechanism with conditioned diffusion to collaboratively generate realistic 3D scenes with consistent geometry, texture, scale, and accurate interactions among multiple objects while simultaneously adjusting the coarse layout priors extracted from the LLMs to align with the generated scene. Experiments show that GALA3D is a user-friendly, end-to-end framework for state-of-the-art scene-level 3D content generation and controllable editing while ensuring the high fidelity of object-level entities within the scene. Source codes and models will be available at https://gala3d.github.io/.
PDF111December 15, 2024