Busca em Árvore Global-Local para Geração de Cenas 3D Guiada por Linguagem
Global-Local Tree Search for Language Guided 3D Scene Generation
March 24, 2025
Autores: Wei Deng, Mengshi Qi, Huadong Ma
cs.AI
Resumo
Grandes Modelos de Visão e Linguagem (VLMs), como o GPT-4, alcançaram sucesso notável em diversos campos. No entanto, existem poucos estudos sobre a geração de cenas 3D internas com VLMs. Este artigo aborda essa tarefa como um problema de planejamento sujeito a restrições de senso comum espacial e de layout. Para resolver o problema com um VLM, propomos um novo algoritmo de busca em árvore global-local. Globalmente, o método posiciona cada objeto sequencialmente e explora múltiplas posições durante cada processo de colocação, onde o espaço do problema é representado como uma árvore. Para reduzir a profundidade da árvore, decompomos a estrutura da cena hierarquicamente, ou seja, em nível de sala, nível de região, nível de objetos de piso e nível de objetos suportados. O algoritmo gera independentemente os objetos de piso em diferentes regiões e os objetos suportados colocados em diferentes objetos de piso. Localmente, também decompomos a subtarefa, a colocação de cada objeto, em múltiplos passos. O algoritmo busca na árvore do espaço do problema. Para aproveitar o modelo VLM para produzir as posições dos objetos, discretizamos o espaço de visão de cima para baixo como uma grade densa e preenchemos cada célula com diversos emojis para tornar as células distintas. Solicitamos ao VLM a grade de emojis, e o VLM produz uma localização razoável para o objeto descrevendo a posição com o nome dos emojis. Os resultados experimentais quantitativos e qualitativos ilustram que nossa abordagem gera cenas 3D mais plausíveis do que as abordagens state-of-the-art. Nosso código-fonte está disponível em https://github.com/dw-dengwei/TreeSearchGen.
English
Large Vision-Language Models (VLMs), such as GPT-4, have achieved remarkable
success across various fields. However, there are few studies on 3D indoor
scene generation with VLMs. This paper considers this task as a planning
problem subject to spatial and layout common sense constraints. To solve the
problem with a VLM, we propose a new global-local tree search algorithm.
Globally, the method places each object sequentially and explores multiple
placements during each placement process, where the problem space is
represented as a tree. To reduce the depth of the tree, we decompose the scene
structure hierarchically, i.e. room level, region level, floor object level,
and supported object level. The algorithm independently generates the floor
objects in different regions and supported objects placed on different floor
objects. Locally, we also decompose the sub-task, the placement of each object,
into multiple steps. The algorithm searches the tree of problem space. To
leverage the VLM model to produce positions of objects, we discretize the
top-down view space as a dense grid and fill each cell with diverse emojis to
make to cells distinct. We prompt the VLM with the emoji grid and the VLM
produces a reasonable location for the object by describing the position with
the name of emojis. The quantitative and qualitative experimental results
illustrate our approach generates more plausible 3D scenes than
state-of-the-art approaches. Our source code is available at
https://github.com/dw-dengwei/TreeSearchGen .