Globaal-Lokaal Boomzoeken voor Taalgeleide 3D Scènegeneratie
Global-Local Tree Search for Language Guided 3D Scene Generation
March 24, 2025
Auteurs: Wei Deng, Mengshi Qi, Huadong Ma
cs.AI
Samenvatting
Grote Vision-Taalmodellen (VLMs), zoals GPT-4, hebben opmerkelijke successen geboekt in verschillende domeinen. Er zijn echter weinig studies gedaan naar 3D binnenscènegeneratie met VLMs. Dit artikel beschouwt deze taak als een planningsprobleem dat onderhevig is aan ruimtelijke en lay-out gezond verstand beperkingen. Om het probleem op te lossen met een VLM, stellen we een nieuw globaal-lokaal boomzoekalgoritme voor. Globaal plaatst de methode elk object sequentieel en verkent meerdere plaatsingen tijdens elk plaatsingsproces, waarbij de probleemruimte wordt weergegeven als een boom. Om de diepte van de boom te verminderen, ontleden we de scènestructuur hiërarchisch, d.w.z. op kamerniveau, regioniveau, vloerobjectniveau en ondersteund objectniveau. Het algoritme genereert onafhankelijk de vloerobjecten in verschillende regio's en ondersteunde objecten die op verschillende vloerobjecten zijn geplaatst. Lokaal ontleden we ook de subtask, de plaatsing van elk object, in meerdere stappen. Het algoritme doorzoekt de boom van de probleemruimte. Om het VLM-model te benutten voor het produceren van objectposities, discretiseren we de bovenaanzichtruimte als een dicht rooster en vullen we elke cel met diverse emoji's om de cellen onderscheidend te maken. We geven het VLM de emoji-rooster als prompt, en het VLM produceert een redelijke locatie voor het object door de positie te beschrijven met de naam van de emoji's. De kwantitatieve en kwalitatieve experimentele resultaten tonen aan dat onze aanpak plausibelere 3D-scènes genereert dan state-of-the-art benaderingen. Onze broncode is beschikbaar op https://github.com/dw-dengwei/TreeSearchGen.
English
Large Vision-Language Models (VLMs), such as GPT-4, have achieved remarkable
success across various fields. However, there are few studies on 3D indoor
scene generation with VLMs. This paper considers this task as a planning
problem subject to spatial and layout common sense constraints. To solve the
problem with a VLM, we propose a new global-local tree search algorithm.
Globally, the method places each object sequentially and explores multiple
placements during each placement process, where the problem space is
represented as a tree. To reduce the depth of the tree, we decompose the scene
structure hierarchically, i.e. room level, region level, floor object level,
and supported object level. The algorithm independently generates the floor
objects in different regions and supported objects placed on different floor
objects. Locally, we also decompose the sub-task, the placement of each object,
into multiple steps. The algorithm searches the tree of problem space. To
leverage the VLM model to produce positions of objects, we discretize the
top-down view space as a dense grid and fill each cell with diverse emojis to
make to cells distinct. We prompt the VLM with the emoji grid and the VLM
produces a reasonable location for the object by describing the position with
the name of emojis. The quantitative and qualitative experimental results
illustrate our approach generates more plausible 3D scenes than
state-of-the-art approaches. Our source code is available at
https://github.com/dw-dengwei/TreeSearchGen .Summary
AI-Generated Summary