ChatPaper.aiChatPaper

GALA3D: Auf dem Weg zur Text-zu-3D-Komplexszenerie-Generierung mittels layoutgesteuerter generativer Gaußscher Splatting

GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting

February 11, 2024
Autoren: Xiaoyu Zhou, Xingjian Ran, Yajiao Xiong, Jinlin He, Zhiwei Lin, Yongtao Wang, Deqing Sun, Ming-Hsuan Yang
cs.AI

Zusammenfassung

Wir präsentieren GALA3D, generative 3D-GAussians mit LAyout-gesteuerter Kontrolle, für eine effektive kompositionelle Text-zu-3D-Generierung. Zunächst nutzen wir große Sprachmodelle (LLMs), um das initiale Layout zu generieren, und führen eine layout-gesteuerte 3D-Gauß-Darstellung für die 3D-Inhaltsgenerierung mit adaptiven geometrischen Beschränkungen ein. Anschließend schlagen wir einen Objekt-Szene-Kompositionsoptimierungsmechanismus mit konditionierter Diffusion vor, um realistische 3D-Szenen mit konsistenter Geometrie, Textur, Skalierung und präzisen Interaktionen zwischen mehreren Objekten gemeinsam zu generieren, während gleichzeitig die groben Layout-Priors, die aus den LLMs extrahiert wurden, angepasst werden, um sie mit der generierten Szene in Einklang zu bringen. Experimente zeigen, dass GALA3D ein benutzerfreundliches, end-to-end Framework für die state-of-the-art Szenenebenen-3D-Inhaltsgenerierung und kontrollierbare Bearbeitung ist, während gleichzeitig die hohe Detailtreue der Objektebene innerhalb der Szene gewährleistet wird. Quellcodes und Modelle werden unter https://gala3d.github.io/ verfügbar sein.
English
We present GALA3D, generative 3D GAussians with LAyout-guided control, for effective compositional text-to-3D generation. We first utilize large language models (LLMs) to generate the initial layout and introduce a layout-guided 3D Gaussian representation for 3D content generation with adaptive geometric constraints. We then propose an object-scene compositional optimization mechanism with conditioned diffusion to collaboratively generate realistic 3D scenes with consistent geometry, texture, scale, and accurate interactions among multiple objects while simultaneously adjusting the coarse layout priors extracted from the LLMs to align with the generated scene. Experiments show that GALA3D is a user-friendly, end-to-end framework for state-of-the-art scene-level 3D content generation and controllable editing while ensuring the high fidelity of object-level entities within the scene. Source codes and models will be available at https://gala3d.github.io/.
PDF111December 15, 2024