Recherche Arborescente Globale-Locale pour la Génération de Scènes 3D Guidée par le Langage
Global-Local Tree Search for Language Guided 3D Scene Generation
March 24, 2025
Auteurs: Wei Deng, Mengshi Qi, Huadong Ma
cs.AI
Résumé
Les grands modèles vision-langage (VLMs), tels que GPT-4, ont obtenu des succès remarquables dans divers domaines. Cependant, peu d'études se sont penchées sur la génération de scènes intérieures en 3D avec ces modèles. Cet article aborde cette tâche comme un problème de planification soumis à des contraintes de bon sens spatial et de disposition. Pour résoudre ce problème avec un VLM, nous proposons un nouvel algorithme de recherche arborescente global-local. Globalement, la méthode place chaque objet séquentiellement et explore plusieurs placements lors de chaque processus de placement, où l'espace des problèmes est représenté sous forme d'arbre. Pour réduire la profondeur de l'arbre, nous décomposons la structure de la scène de manière hiérarchique, c'est-à-dire au niveau de la pièce, de la région, des objets au sol et des objets supportés. L'algorithme génère indépendamment les objets au sol dans différentes régions et les objets supportés placés sur différents objets au sol. Localement, nous décomposons également la sous-tâche, le placement de chaque objet, en plusieurs étapes. L'algorithme explore l'arbre de l'espace des problèmes. Pour exploiter le modèle VLM afin de produire les positions des objets, nous discrétisons l'espace de vue de dessus sous forme de grille dense et remplissons chaque cellule avec des emojis variés pour les rendre distinctes. Nous sollicitons le VLM avec la grille d'emojis, et le VLM produit un emplacement raisonnable pour l'objet en décrivant la position avec le nom des emojis. Les résultats expérimentaux quantitatifs et qualitatifs montrent que notre approche génère des scènes 3D plus plausibles que les approches de pointe. Notre code source est disponible à l'adresse https://github.com/dw-dengwei/TreeSearchGen.
English
Large Vision-Language Models (VLMs), such as GPT-4, have achieved remarkable
success across various fields. However, there are few studies on 3D indoor
scene generation with VLMs. This paper considers this task as a planning
problem subject to spatial and layout common sense constraints. To solve the
problem with a VLM, we propose a new global-local tree search algorithm.
Globally, the method places each object sequentially and explores multiple
placements during each placement process, where the problem space is
represented as a tree. To reduce the depth of the tree, we decompose the scene
structure hierarchically, i.e. room level, region level, floor object level,
and supported object level. The algorithm independently generates the floor
objects in different regions and supported objects placed on different floor
objects. Locally, we also decompose the sub-task, the placement of each object,
into multiple steps. The algorithm searches the tree of problem space. To
leverage the VLM model to produce positions of objects, we discretize the
top-down view space as a dense grid and fill each cell with diverse emojis to
make to cells distinct. We prompt the VLM with the emoji grid and the VLM
produces a reasonable location for the object by describing the position with
the name of emojis. The quantitative and qualitative experimental results
illustrate our approach generates more plausible 3D scenes than
state-of-the-art approaches. Our source code is available at
https://github.com/dw-dengwei/TreeSearchGen .Summary
AI-Generated Summary