GALA3D: 레이아웃 기반 생성적 가우시안 스플래팅을 통한 텍스트-3D 복잡 장면 생성
GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting
February 11, 2024
저자: Xiaoyu Zhou, Xingjian Ran, Yajiao Xiong, Jinlin He, Zhiwei Lin, Yongtao Wang, Deqing Sun, Ming-Hsuan Yang
cs.AI
초록
우리는 효과적인 구성적 텍스트-3D 생성을 위한 레이아웃 기반 제어를 갖춘 생성적 3D 가우시안 모델인 GALA3D를 소개합니다. 먼저, 대규모 언어 모델(LLM)을 활용하여 초기 레이아웃을 생성하고, 적응형 기하학적 제약을 포함한 레이아웃 기반 3D 가우시안 표현을 도입하여 3D 콘텐츠 생성을 수행합니다. 이후, 조건부 확산을 통한 객체-장면 구성적 최적화 메커니즘을 제안하여, 일관된 기하학, 질감, 스케일 및 다중 객체 간의 정확한 상호작용을 갖춘 현실적인 3D 장면을 협력적으로 생성합니다. 동시에, LLM에서 추출된 개략적인 레이아웃 사전 정보를 생성된 장면과 일치하도록 조정합니다. 실험 결과, GALA3D는 사용자 친화적이며 최신 기술 수준의 장면 수준 3D 콘텐츠 생성과 제어 가능한 편집을 위한 종단 간 프레임워크로서, 장면 내 객체 수준 엔티티의 높은 충실도를 보장합니다. 소스 코드와 모델은 https://gala3d.github.io/에서 제공될 예정입니다.
English
We present GALA3D, generative 3D GAussians with LAyout-guided control, for
effective compositional text-to-3D generation. We first utilize large language
models (LLMs) to generate the initial layout and introduce a layout-guided 3D
Gaussian representation for 3D content generation with adaptive geometric
constraints. We then propose an object-scene compositional optimization
mechanism with conditioned diffusion to collaboratively generate realistic 3D
scenes with consistent geometry, texture, scale, and accurate interactions
among multiple objects while simultaneously adjusting the coarse layout priors
extracted from the LLMs to align with the generated scene. Experiments show
that GALA3D is a user-friendly, end-to-end framework for state-of-the-art
scene-level 3D content generation and controllable editing while ensuring the
high fidelity of object-level entities within the scene. Source codes and
models will be available at https://gala3d.github.io/.