ChatPaper.aiChatPaper

GALA3D: Hacia la generación de escenas complejas de texto a 3D mediante Gaussian Splatting generativo guiado por diseño

GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting

February 11, 2024
Autores: Xiaoyu Zhou, Xingjian Ran, Yajiao Xiong, Jinlin He, Zhiwei Lin, Yongtao Wang, Deqing Sun, Ming-Hsuan Yang
cs.AI

Resumen

Presentamos GALA3D, Gaussianas 3D generativas con control guiado por diseño (LAyout-guided), para una generación efectiva de texto a 3D de naturaleza composicional. Primero, utilizamos modelos de lenguaje de gran escala (LLMs) para generar el diseño inicial e introducimos una representación de Gaussianas 3D guiada por diseño para la generación de contenido 3D con restricciones geométricas adaptativas. Luego, proponemos un mecanismo de optimización composicional objeto-escena con difusión condicionada para generar colaborativamente escenas 3D realistas con geometría, textura, escala e interacciones precisas entre múltiples objetos, mientras ajustamos simultáneamente los diseños preliminares extraídos de los LLMs para alinearlos con la escena generada. Los experimentos muestran que GALA3D es un marco de trabajo integral y fácil de usar para la generación de contenido 3D a nivel de escena de última generación y edición controlable, garantizando la alta fidelidad de las entidades a nivel de objeto dentro de la escena. Los códigos fuente y modelos estarán disponibles en https://gala3d.github.io/.
English
We present GALA3D, generative 3D GAussians with LAyout-guided control, for effective compositional text-to-3D generation. We first utilize large language models (LLMs) to generate the initial layout and introduce a layout-guided 3D Gaussian representation for 3D content generation with adaptive geometric constraints. We then propose an object-scene compositional optimization mechanism with conditioned diffusion to collaboratively generate realistic 3D scenes with consistent geometry, texture, scale, and accurate interactions among multiple objects while simultaneously adjusting the coarse layout priors extracted from the LLMs to align with the generated scene. Experiments show that GALA3D is a user-friendly, end-to-end framework for state-of-the-art scene-level 3D content generation and controllable editing while ensuring the high fidelity of object-level entities within the scene. Source codes and models will be available at https://gala3d.github.io/.
PDF111December 15, 2024