GALA3D: Auf dem Weg zur Text-zu-3D-Komplexszenerie-Generierung mittels layoutgesteuerter generativer Gaußscher Splatting
GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting
February 11, 2024
Autoren: Xiaoyu Zhou, Xingjian Ran, Yajiao Xiong, Jinlin He, Zhiwei Lin, Yongtao Wang, Deqing Sun, Ming-Hsuan Yang
cs.AI
Zusammenfassung
Wir präsentieren GALA3D, generative 3D-GAussians mit LAyout-gesteuerter Kontrolle, für eine effektive kompositionelle Text-zu-3D-Generierung. Zunächst nutzen wir große Sprachmodelle (LLMs), um das initiale Layout zu generieren, und führen eine layout-gesteuerte 3D-Gauß-Darstellung für die 3D-Inhaltsgenerierung mit adaptiven geometrischen Beschränkungen ein. Anschließend schlagen wir einen Objekt-Szene-Kompositionsoptimierungsmechanismus mit konditionierter Diffusion vor, um realistische 3D-Szenen mit konsistenter Geometrie, Textur, Skalierung und präzisen Interaktionen zwischen mehreren Objekten gemeinsam zu generieren, während gleichzeitig die groben Layout-Priors, die aus den LLMs extrahiert wurden, angepasst werden, um sie mit der generierten Szene in Einklang zu bringen. Experimente zeigen, dass GALA3D ein benutzerfreundliches, end-to-end Framework für die state-of-the-art Szenenebenen-3D-Inhaltsgenerierung und kontrollierbare Bearbeitung ist, während gleichzeitig die hohe Detailtreue der Objektebene innerhalb der Szene gewährleistet wird. Quellcodes und Modelle werden unter https://gala3d.github.io/ verfügbar sein.
English
We present GALA3D, generative 3D GAussians with LAyout-guided control, for
effective compositional text-to-3D generation. We first utilize large language
models (LLMs) to generate the initial layout and introduce a layout-guided 3D
Gaussian representation for 3D content generation with adaptive geometric
constraints. We then propose an object-scene compositional optimization
mechanism with conditioned diffusion to collaboratively generate realistic 3D
scenes with consistent geometry, texture, scale, and accurate interactions
among multiple objects while simultaneously adjusting the coarse layout priors
extracted from the LLMs to align with the generated scene. Experiments show
that GALA3D is a user-friendly, end-to-end framework for state-of-the-art
scene-level 3D content generation and controllable editing while ensuring the
high fidelity of object-level entities within the scene. Source codes and
models will be available at https://gala3d.github.io/.