Ricerca ad Albero Globale-Locale per la Generazione di Scene 3D Guidata dal Linguaggio
Global-Local Tree Search for Language Guided 3D Scene Generation
March 24, 2025
Autori: Wei Deng, Mengshi Qi, Huadong Ma
cs.AI
Abstract
I grandi modelli visione-linguaggio (VLMs), come GPT-4, hanno ottenuto un successo notevole in vari campi. Tuttavia, ci sono pochi studi sulla generazione di scene 3D indoor con VLMs. Questo articolo considera questo compito come un problema di pianificazione soggetto a vincoli di buon senso spaziale e di layout. Per risolvere il problema con un VLM, proponiamo un nuovo algoritmo di ricerca ad albero globale-locale. Globalmente, il metodo posiziona ciascun oggetto in sequenza ed esplora più posizionamenti durante ogni processo di collocazione, dove lo spazio del problema è rappresentato come un albero. Per ridurre la profondità dell'albero, scomponiamo la struttura della scena in modo gerarchico, ovvero a livello di stanza, livello di regione, livello di oggetti del pavimento e livello di oggetti supportati. L'algoritmo genera indipendentemente gli oggetti del pavimento in diverse regioni e gli oggetti supportati posizionati su diversi oggetti del pavimento. Localmente, scomponiamo anche il sotto-compito, il posizionamento di ciascun oggetto, in più passaggi. L'algoritmo esplora l'albero dello spazio del problema. Per sfruttare il modello VLM per produrre le posizioni degli oggetti, discretizziamo lo spazio della vista dall'alto come una griglia densa e riempiamo ogni cella con emoji diverse per rendere le celle distinte. Sollecitiamo il VLM con la griglia di emoji e il VLM produce una posizione ragionevole per l'oggetto descrivendo la posizione con il nome delle emoji. I risultati sperimentali quantitativi e qualitativi dimostrano che il nostro approccio genera scene 3D più plausibili rispetto agli approcci all'avanguardia. Il nostro codice sorgente è disponibile all'indirizzo https://github.com/dw-dengwei/TreeSearchGen.
English
Large Vision-Language Models (VLMs), such as GPT-4, have achieved remarkable
success across various fields. However, there are few studies on 3D indoor
scene generation with VLMs. This paper considers this task as a planning
problem subject to spatial and layout common sense constraints. To solve the
problem with a VLM, we propose a new global-local tree search algorithm.
Globally, the method places each object sequentially and explores multiple
placements during each placement process, where the problem space is
represented as a tree. To reduce the depth of the tree, we decompose the scene
structure hierarchically, i.e. room level, region level, floor object level,
and supported object level. The algorithm independently generates the floor
objects in different regions and supported objects placed on different floor
objects. Locally, we also decompose the sub-task, the placement of each object,
into multiple steps. The algorithm searches the tree of problem space. To
leverage the VLM model to produce positions of objects, we discretize the
top-down view space as a dense grid and fill each cell with diverse emojis to
make to cells distinct. We prompt the VLM with the emoji grid and the VLM
produces a reasonable location for the object by describing the position with
the name of emojis. The quantitative and qualitative experimental results
illustrate our approach generates more plausible 3D scenes than
state-of-the-art approaches. Our source code is available at
https://github.com/dw-dengwei/TreeSearchGen .