ChatPaper.aiChatPaper

GALA3D : Vers la génération de scènes complexes 3D à partir de texte via un éclatement gaussien génératif guidé par la disposition

GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting

February 11, 2024
Auteurs: Xiaoyu Zhou, Xingjian Ran, Yajiao Xiong, Jinlin He, Zhiwei Lin, Yongtao Wang, Deqing Sun, Ming-Hsuan Yang
cs.AI

Résumé

Nous présentons GALA3D, des GAussiens 3D génératifs avec contrôle guidé par LAyout, pour une génération text-to-3D compositionnelle efficace. Nous utilisons d'abord des modèles de langage de grande taille (LLMs) pour générer le layout initial et introduisons une représentation 3D Gaussienne guidée par layout pour la génération de contenu 3D avec des contraintes géométriques adaptatives. Nous proposons ensuite un mécanisme d'optimisation compositionnelle objet-scène avec diffusion conditionnée pour générer de manière collaborative des scènes 3D réalistes avec une géométrie, une texture, une échelle et des interactions précises entre plusieurs objets tout en ajustant simultanément les priors de layout grossiers extraits des LLMs pour les aligner avec la scène générée. Les expériences montrent que GALA3D est un framework convivial et end-to-end pour la génération de contenu 3D au niveau scénique de pointe et l'édition contrôlée, tout en garantissant la haute fidélité des entités au niveau objet dans la scène. Les codes sources et modèles seront disponibles sur https://gala3d.github.io/.
English
We present GALA3D, generative 3D GAussians with LAyout-guided control, for effective compositional text-to-3D generation. We first utilize large language models (LLMs) to generate the initial layout and introduce a layout-guided 3D Gaussian representation for 3D content generation with adaptive geometric constraints. We then propose an object-scene compositional optimization mechanism with conditioned diffusion to collaboratively generate realistic 3D scenes with consistent geometry, texture, scale, and accurate interactions among multiple objects while simultaneously adjusting the coarse layout priors extracted from the LLMs to align with the generated scene. Experiments show that GALA3D is a user-friendly, end-to-end framework for state-of-the-art scene-level 3D content generation and controllable editing while ensuring the high fidelity of object-level entities within the scene. Source codes and models will be available at https://gala3d.github.io/.
PDF111December 15, 2024