Globaal-Lokaal Boomzoeken voor Taalgeleide 3D Scènegeneratie

Samenvatting

Grote Vision-Taalmodellen (VLMs), zoals GPT-4, hebben opmerkelijke successen geboekt in verschillende domeinen. Er zijn echter weinig studies gedaan naar 3D binnenscènegeneratie met VLMs. Dit artikel beschouwt deze taak als een planningsprobleem dat onderhevig is aan ruimtelijke en lay-out gezond verstand beperkingen. Om het probleem op te lossen met een VLM, stellen we een nieuw globaal-lokaal boomzoekalgoritme voor. Globaal plaatst de methode elk object sequentieel en verkent meerdere plaatsingen tijdens elk plaatsingsproces, waarbij de probleemruimte wordt weergegeven als een boom. Om de diepte van de boom te verminderen, ontleden we de scènestructuur hiërarchisch, d.w.z. op kamerniveau, regioniveau, vloerobjectniveau en ondersteund objectniveau. Het algoritme genereert onafhankelijk de vloerobjecten in verschillende regio's en ondersteunde objecten die op verschillende vloerobjecten zijn geplaatst. Lokaal ontleden we ook de subtask, de plaatsing van elk object, in meerdere stappen. Het algoritme doorzoekt de boom van de probleemruimte. Om het VLM-model te benutten voor het produceren van objectposities, discretiseren we de bovenaanzichtruimte als een dicht rooster en vullen we elke cel met diverse emoji's om de cellen onderscheidend te maken. We geven het VLM de emoji-rooster als prompt, en het VLM produceert een redelijke locatie voor het object door de positie te beschrijven met de naam van de emoji's. De kwantitatieve en kwalitatieve experimentele resultaten tonen aan dat onze aanpak plausibelere 3D-scènes genereert dan state-of-the-art benaderingen. Onze broncode is beschikbaar op https://github.com/dw-dengwei/TreeSearchGen.

English

Large Vision-Language Models (VLMs), such as GPT-4, have achieved remarkable success across various fields. However, there are few studies on 3D indoor scene generation with VLMs. This paper considers this task as a planning problem subject to spatial and layout common sense constraints. To solve the problem with a VLM, we propose a new global-local tree search algorithm. Globally, the method places each object sequentially and explores multiple placements during each placement process, where the problem space is represented as a tree. To reduce the depth of the tree, we decompose the scene structure hierarchically, i.e. room level, region level, floor object level, and supported object level. The algorithm independently generates the floor objects in different regions and supported objects placed on different floor objects. Locally, we also decompose the sub-task, the placement of each object, into multiple steps. The algorithm searches the tree of problem space. To leverage the VLM model to produce positions of objects, we discretize the top-down view space as a dense grid and fill each cell with diverse emojis to make to cells distinct. We prompt the VLM with the emoji grid and the VLM produces a reasonable location for the object by describing the position with the name of emojis. The quantitative and qualitative experimental results illustrate our approach generates more plausible 3D scenes than state-of-the-art approaches. Our source code is available at https://github.com/dw-dengwei/TreeSearchGen .

Globaal-Lokaal Boomzoeken voor Taalgeleide 3D Scènegeneratie

Global-Local Tree Search for Language Guided 3D Scene Generation

Samenvatting

Support