GALA3D: Verso la Generazione di Scene 3D Complesse da Testo tramite Splatting Gaussiano Generativo Guidato dal Layout
GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting
February 11, 2024
Autori: Xiaoyu Zhou, Xingjian Ran, Yajiao Xiong, Jinlin He, Zhiwei Lin, Yongtao Wang, Deqing Sun, Ming-Hsuan Yang
cs.AI
Abstract
Presentiamo GALA3D, GAussiane 3D generative con controllo guidato dal LAyout, per un'efficace generazione compositiva da testo a 3D. Utilizziamo inizialmente modelli linguistici di grandi dimensioni (LLM) per generare il layout iniziale e introduciamo una rappresentazione 3D Gaussiana guidata dal layout per la generazione di contenuti 3D con vincoli geometrici adattivi. Proponiamo quindi un meccanismo di ottimizzazione compositiva oggetto-scena con diffusione condizionata per generare in modo collaborativo scene 3D realistiche con geometria, texture, scala e interazioni accurate tra più oggetti, mentre simultaneamente aggiustiamo i prior di layout grezzi estratti dagli LLM per allinearli alla scena generata. Gli esperimenti dimostrano che GALA3D è un framework user-friendly, end-to-end per la generazione di contenuti 3D a livello di scena all'avanguardia e per l'editing controllabile, garantendo al contempo l'alta fedeltà delle entità a livello di oggetto all'interno della scena. I codici sorgente e i modelli saranno disponibili su https://gala3d.github.io/.
English
We present GALA3D, generative 3D GAussians with LAyout-guided control, for
effective compositional text-to-3D generation. We first utilize large language
models (LLMs) to generate the initial layout and introduce a layout-guided 3D
Gaussian representation for 3D content generation with adaptive geometric
constraints. We then propose an object-scene compositional optimization
mechanism with conditioned diffusion to collaboratively generate realistic 3D
scenes with consistent geometry, texture, scale, and accurate interactions
among multiple objects while simultaneously adjusting the coarse layout priors
extracted from the LLMs to align with the generated scene. Experiments show
that GALA3D is a user-friendly, end-to-end framework for state-of-the-art
scene-level 3D content generation and controllable editing while ensuring the
high fidelity of object-level entities within the scene. Source codes and
models will be available at https://gala3d.github.io/.