Глобально-локальный поиск по дереву для генерации 3D-сцен с использованием языковых инструкций
Global-Local Tree Search for Language Guided 3D Scene Generation
March 24, 2025
Авторы: Wei Deng, Mengshi Qi, Huadong Ma
cs.AI
Аннотация
Крупные визуально-языковые модели (VLM), такие как GPT-4, достигли значительных успехов в различных областях. Однако исследований по генерации 3D-интерьеров с использованием VLM крайне мало. В данной статье эта задача рассматривается как проблема планирования, ограниченная пространственными и композиционными правилами. Для решения этой задачи с помощью VLM мы предлагаем новый алгоритм глобально-локального поиска по дереву. На глобальном уровне метод последовательно размещает каждый объект и исследует несколько вариантов размещения в процессе каждого шага, где пространство задачи представлено в виде дерева. Чтобы уменьшить глубину дерева, мы декомпозируем структуру сцены иерархически, а именно на уровне комнаты, уровня региона, уровня напольных объектов и уровня поддерживаемых объектов. Алгоритм независимо генерирует напольные объекты в разных регионах и поддерживаемые объекты, размещенные на различных напольных объектах. На локальном уровне мы также декомпозируем подзадачу — размещение каждого объекта — на несколько шагов. Алгоритм осуществляет поиск по дереву пространства задачи. Чтобы использовать VLM для определения позиций объектов, мы дискретизируем вид сверху в виде плотной сетки и заполняем каждую ячейку различными эмодзи, чтобы сделать ячейки различимыми. Мы передаем VLM сетку с эмодзи, и модель генерирует разумное местоположение объекта, описывая позицию с помощью названий эмодзи. Количественные и качественные результаты экспериментов показывают, что наш подход создает более правдоподобные 3D-сцены по сравнению с современными методами. Наш исходный код доступен по адресу https://github.com/dw-dengwei/TreeSearchGen.
English
Large Vision-Language Models (VLMs), such as GPT-4, have achieved remarkable
success across various fields. However, there are few studies on 3D indoor
scene generation with VLMs. This paper considers this task as a planning
problem subject to spatial and layout common sense constraints. To solve the
problem with a VLM, we propose a new global-local tree search algorithm.
Globally, the method places each object sequentially and explores multiple
placements during each placement process, where the problem space is
represented as a tree. To reduce the depth of the tree, we decompose the scene
structure hierarchically, i.e. room level, region level, floor object level,
and supported object level. The algorithm independently generates the floor
objects in different regions and supported objects placed on different floor
objects. Locally, we also decompose the sub-task, the placement of each object,
into multiple steps. The algorithm searches the tree of problem space. To
leverage the VLM model to produce positions of objects, we discretize the
top-down view space as a dense grid and fill each cell with diverse emojis to
make to cells distinct. We prompt the VLM with the emoji grid and the VLM
produces a reasonable location for the object by describing the position with
the name of emojis. The quantitative and qualitative experimental results
illustrate our approach generates more plausible 3D scenes than
state-of-the-art approaches. Our source code is available at
https://github.com/dw-dengwei/TreeSearchGen .Summary
AI-Generated Summary