GALA3D: К генерации сложных 3D-сцен из текста с использованием генеративного гауссова сплайнинга, управляемого компоновкой
GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting
February 11, 2024
Авторы: Xiaoyu Zhou, Xingjian Ran, Yajiao Xiong, Jinlin He, Zhiwei Lin, Yongtao Wang, Deqing Sun, Ming-Hsuan Yang
cs.AI
Аннотация
Мы представляем GALA3D — генеративные 3D-гауссовы распределения с управлением на основе компоновки (LAyout-guided control) для эффективного композиционного преобразования текста в 3D. Сначала мы используем большие языковые модели (LLM) для создания начальной компоновки и вводим представление 3D-гауссовых распределений, управляемое компоновкой, для генерации 3D-контента с адаптивными геометрическими ограничениями. Затем мы предлагаем механизм оптимизации композиции объектов и сцены с использованием условной диффузии, который совместно генерирует реалистичные 3D-сцены с согласованной геометрией, текстурой, масштабом и точными взаимодействиями между множеством объектов, одновременно корректируя грубые априорные данные о компоновке, извлеченные из LLM, для их согласования с генерируемой сценой. Эксперименты показывают, что GALA3D представляет собой удобный в использовании, сквозной фреймворк для передовой генерации 3D-контента на уровне сцены и контролируемого редактирования, обеспечивая при этом высокую точность объектов внутри сцены. Исходные коды и модели будут доступны по адресу https://gala3d.github.io/.
English
We present GALA3D, generative 3D GAussians with LAyout-guided control, for
effective compositional text-to-3D generation. We first utilize large language
models (LLMs) to generate the initial layout and introduce a layout-guided 3D
Gaussian representation for 3D content generation with adaptive geometric
constraints. We then propose an object-scene compositional optimization
mechanism with conditioned diffusion to collaboratively generate realistic 3D
scenes with consistent geometry, texture, scale, and accurate interactions
among multiple objects while simultaneously adjusting the coarse layout priors
extracted from the LLMs to align with the generated scene. Experiments show
that GALA3D is a user-friendly, end-to-end framework for state-of-the-art
scene-level 3D content generation and controllable editing while ensuring the
high fidelity of object-level entities within the scene. Source codes and
models will be available at https://gala3d.github.io/.