ChatPaper.aiChatPaper

GALA3D: Rumo à Geração de Cenas 3D Complexas a partir de Texto via Splatting Gaussiano Generativo Orientado por Layout

GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting

February 11, 2024
Autores: Xiaoyu Zhou, Xingjian Ran, Yajiao Xiong, Jinlin He, Zhiwei Lin, Yongtao Wang, Deqing Sun, Ming-Hsuan Yang
cs.AI

Resumo

Apresentamos o GALA3D, Gaussianas 3D generativas com controle guiado por layout, para uma geração composicional eficaz de texto para 3D. Primeiro, utilizamos modelos de linguagem de grande escala (LLMs) para gerar o layout inicial e introduzimos uma representação de Gaussianas 3D guiada por layout para a geração de conteúdo 3D com restrições geométricas adaptativas. Em seguida, propomos um mecanismo de otimização composicional objeto-cena com difusão condicionada para gerar colaborativamente cenas 3D realistas com geometria, textura, escala e interações precisas entre múltiplos objetos, enquanto ajustamos simultaneamente os priors de layout grosseiros extraídos dos LLMs para alinhá-los com a cena gerada. Experimentos mostram que o GALA3D é uma estrutura amigável ao usuário e de ponta a ponta para a geração de conteúdo 3D em nível de cena e edição controlável, garantindo a alta fidelidade das entidades em nível de objeto dentro da cena. Códigos-fonte e modelos estarão disponíveis em https://gala3d.github.io/.
English
We present GALA3D, generative 3D GAussians with LAyout-guided control, for effective compositional text-to-3D generation. We first utilize large language models (LLMs) to generate the initial layout and introduce a layout-guided 3D Gaussian representation for 3D content generation with adaptive geometric constraints. We then propose an object-scene compositional optimization mechanism with conditioned diffusion to collaboratively generate realistic 3D scenes with consistent geometry, texture, scale, and accurate interactions among multiple objects while simultaneously adjusting the coarse layout priors extracted from the LLMs to align with the generated scene. Experiments show that GALA3D is a user-friendly, end-to-end framework for state-of-the-art scene-level 3D content generation and controllable editing while ensuring the high fidelity of object-level entities within the scene. Source codes and models will be available at https://gala3d.github.io/.
PDF121December 15, 2024