ChatPaper.aiChatPaper

Búsqueda Global-Local en Árbol para la Generación de Escenas 3D Guiada por Lenguaje

Global-Local Tree Search for Language Guided 3D Scene Generation

March 24, 2025
Autores: Wei Deng, Mengshi Qi, Huadong Ma
cs.AI

Resumen

Los grandes modelos de visión y lenguaje (VLMs, por sus siglas en inglés), como GPT-4, han logrado un éxito notable en diversos campos. Sin embargo, existen pocos estudios sobre la generación de escenas interiores en 3D con VLMs. Este artículo aborda esta tarea como un problema de planificación sujeto a restricciones de sentido común espacial y de distribución. Para resolver el problema con un VLM, proponemos un nuevo algoritmo de búsqueda en árbol global-local. A nivel global, el método coloca cada objeto secuencialmente y explora múltiples ubicaciones durante cada proceso de colocación, donde el espacio del problema se representa como un árbol. Para reducir la profundidad del árbol, descomponemos la estructura de la escena de manera jerárquica, es decir, a nivel de habitación, nivel de región, nivel de objetos de suelo y nivel de objetos soportados. El algoritmo genera de forma independiente los objetos de suelo en diferentes regiones y los objetos soportados colocados sobre distintos objetos de suelo. A nivel local, también descomponemos la subtarea, la colocación de cada objeto, en múltiples pasos. El algoritmo explora el árbol del espacio del problema. Para aprovechar el modelo VLM y producir las posiciones de los objetos, discretizamos la vista superior del espacio como una cuadrícula densa y llenamos cada celda con diversos emojis para distinguir las celdas. Proporcionamos al VLM la cuadrícula de emojis, y el VLM produce una ubicación razonable para el objeto describiendo la posición con el nombre de los emojis. Los resultados experimentales cuantitativos y cualitativos demuestran que nuestro enfoque genera escenas 3D más plausibles que los métodos más avanzados. Nuestro código fuente está disponible en https://github.com/dw-dengwei/TreeSearchGen.
English
Large Vision-Language Models (VLMs), such as GPT-4, have achieved remarkable success across various fields. However, there are few studies on 3D indoor scene generation with VLMs. This paper considers this task as a planning problem subject to spatial and layout common sense constraints. To solve the problem with a VLM, we propose a new global-local tree search algorithm. Globally, the method places each object sequentially and explores multiple placements during each placement process, where the problem space is represented as a tree. To reduce the depth of the tree, we decompose the scene structure hierarchically, i.e. room level, region level, floor object level, and supported object level. The algorithm independently generates the floor objects in different regions and supported objects placed on different floor objects. Locally, we also decompose the sub-task, the placement of each object, into multiple steps. The algorithm searches the tree of problem space. To leverage the VLM model to produce positions of objects, we discretize the top-down view space as a dense grid and fill each cell with diverse emojis to make to cells distinct. We prompt the VLM with the emoji grid and the VLM produces a reasonable location for the object by describing the position with the name of emojis. The quantitative and qualitative experimental results illustrate our approach generates more plausible 3D scenes than state-of-the-art approaches. Our source code is available at https://github.com/dw-dengwei/TreeSearchGen .

Summary

AI-Generated Summary

PDF02March 26, 2025