ChatPaper.aiChatPaper

PlaceIt3D: Taalgestuurde Objectplaatsing in Echte 3D-scènes

PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes

May 8, 2025
Auteurs: Ahmed Abdelreheem, Filippo Aleotti, Jamie Watson, Zawar Qureshi, Abdelrahman Eldesokey, Peter Wonka, Gabriel Brostow, Sara Vicente, Guillermo Garcia-Hernando
cs.AI

Samenvatting

We introduceren de nieuwe taak van Taalgeleide Objectplaatsing in Echte 3D-Scènes. Ons model krijgt een puntenwolk van een 3D-scène, een 3D-asset en een tekstuele prompt die in brede zin beschrijft waar het 3D-asset geplaatst moet worden. De taak hier is om een geldige plaatsing voor het 3D-asset te vinden die de prompt respecteert. In vergelijking met andere taalgeleide lokalisatietaken in 3D-scènes, zoals grounding, heeft deze taak specifieke uitdagingen: ze is ambigu omdat er meerdere geldige oplossingen zijn, en ze vereist redeneren over 3D-geometrische relaties en vrije ruimte. We lanceren deze taak door een nieuwe benchmark en evaluatieprotocol voor te stellen. We introduceren ook een nieuwe dataset voor het trainen van 3D LLM's op deze taak, evenals de eerste methode die als een niet-triviale baseline dient. We geloven dat deze uitdagende taak en onze nieuwe benchmark deel kunnen uitmaken van de suite van benchmarks die worden gebruikt om generalistische 3D LLM-modellen te evalueren en te vergelijken.
English
We introduce the novel task of Language-Guided Object Placement in Real 3D Scenes. Our model is given a 3D scene's point cloud, a 3D asset, and a textual prompt broadly describing where the 3D asset should be placed. The task here is to find a valid placement for the 3D asset that respects the prompt. Compared with other language-guided localization tasks in 3D scenes such as grounding, this task has specific challenges: it is ambiguous because it has multiple valid solutions, and it requires reasoning about 3D geometric relationships and free space. We inaugurate this task by proposing a new benchmark and evaluation protocol. We also introduce a new dataset for training 3D LLMs on this task, as well as the first method to serve as a non-trivial baseline. We believe that this challenging task and our new benchmark could become part of the suite of benchmarks used to evaluate and compare generalist 3D LLM models.
PDF132May 9, 2025