ChatPaper.aiChatPaper

GALA3D: К генерации сложных 3D-сцен из текста с использованием генеративного гауссова сплайнинга, управляемого компоновкой

GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting

February 11, 2024
Авторы: Xiaoyu Zhou, Xingjian Ran, Yajiao Xiong, Jinlin He, Zhiwei Lin, Yongtao Wang, Deqing Sun, Ming-Hsuan Yang
cs.AI

Аннотация

Мы представляем GALA3D — генеративные 3D-гауссовы распределения с управлением на основе компоновки (LAyout-guided control) для эффективного композиционного преобразования текста в 3D. Сначала мы используем большие языковые модели (LLM) для создания начальной компоновки и вводим представление 3D-гауссовых распределений, управляемое компоновкой, для генерации 3D-контента с адаптивными геометрическими ограничениями. Затем мы предлагаем механизм оптимизации композиции объектов и сцены с использованием условной диффузии, который совместно генерирует реалистичные 3D-сцены с согласованной геометрией, текстурой, масштабом и точными взаимодействиями между множеством объектов, одновременно корректируя грубые априорные данные о компоновке, извлеченные из LLM, для их согласования с генерируемой сценой. Эксперименты показывают, что GALA3D представляет собой удобный в использовании, сквозной фреймворк для передовой генерации 3D-контента на уровне сцены и контролируемого редактирования, обеспечивая при этом высокую точность объектов внутри сцены. Исходные коды и модели будут доступны по адресу https://gala3d.github.io/.
English
We present GALA3D, generative 3D GAussians with LAyout-guided control, for effective compositional text-to-3D generation. We first utilize large language models (LLMs) to generate the initial layout and introduce a layout-guided 3D Gaussian representation for 3D content generation with adaptive geometric constraints. We then propose an object-scene compositional optimization mechanism with conditioned diffusion to collaboratively generate realistic 3D scenes with consistent geometry, texture, scale, and accurate interactions among multiple objects while simultaneously adjusting the coarse layout priors extracted from the LLMs to align with the generated scene. Experiments show that GALA3D is a user-friendly, end-to-end framework for state-of-the-art scene-level 3D content generation and controllable editing while ensuring the high fidelity of object-level entities within the scene. Source codes and models will be available at https://gala3d.github.io/.
PDF111December 15, 2024