GALA3D: Op weg naar tekst-naar-3D complexe scènegeneratie via layout-gestuurde generatieve Gaussische splatting
GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting
February 11, 2024
Auteurs: Xiaoyu Zhou, Xingjian Ran, Yajiao Xiong, Jinlin He, Zhiwei Lin, Yongtao Wang, Deqing Sun, Ming-Hsuan Yang
cs.AI
Samenvatting
We presenteren GALA3D, generatieve 3D GAussians met LAyout-gestuurde controle, voor effectieve compositionele tekst-naar-3D-generatie. We maken eerst gebruik van grote taalmodellen (LLMs) om de initiële layout te genereren en introduceren een layout-gestuurde 3D Gaussische representatie voor 3D-inhoudsgeneratie met adaptieve geometrische beperkingen. Vervolgens stellen we een object-scene compositioneel optimalisatiemechanisme voor met geconditioneerde diffusie om realistische 3D-scènes te genereren met consistente geometrie, textuur, schaal en nauwkeurige interacties tussen meerdere objecten, terwijl tegelijkertijd de grove layout-priors die uit de LLMs zijn geëxtraheerd, worden aangepast om overeen te komen met de gegenereerde scène. Experimenten tonen aan dat GALA3D een gebruiksvriendelijk, end-to-end framework is voor state-of-the-art scene-level 3D-inhoudsgeneratie en controleerbare bewerking, terwijl de hoge kwaliteit van object-level entiteiten binnen de scène wordt gewaarborgd. Broncodes en modellen zullen beschikbaar zijn op https://gala3d.github.io/.
English
We present GALA3D, generative 3D GAussians with LAyout-guided control, for
effective compositional text-to-3D generation. We first utilize large language
models (LLMs) to generate the initial layout and introduce a layout-guided 3D
Gaussian representation for 3D content generation with adaptive geometric
constraints. We then propose an object-scene compositional optimization
mechanism with conditioned diffusion to collaboratively generate realistic 3D
scenes with consistent geometry, texture, scale, and accurate interactions
among multiple objects while simultaneously adjusting the coarse layout priors
extracted from the LLMs to align with the generated scene. Experiments show
that GALA3D is a user-friendly, end-to-end framework for state-of-the-art
scene-level 3D content generation and controllable editing while ensuring the
high fidelity of object-level entities within the scene. Source codes and
models will be available at https://gala3d.github.io/.