PlaceIt3D: Taalgestuurde Objectplaatsing in Echte 3D-scènes
PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes
May 8, 2025
Auteurs: Ahmed Abdelreheem, Filippo Aleotti, Jamie Watson, Zawar Qureshi, Abdelrahman Eldesokey, Peter Wonka, Gabriel Brostow, Sara Vicente, Guillermo Garcia-Hernando
cs.AI
Samenvatting
We introduceren de nieuwe taak van Taalgeleide Objectplaatsing in Echte 3D-Scènes. Ons model krijgt een puntenwolk van een 3D-scène, een 3D-asset en een tekstuele prompt die in brede zin beschrijft waar het 3D-asset geplaatst moet worden. De taak hier is om een geldige plaatsing voor het 3D-asset te vinden die de prompt respecteert. In vergelijking met andere taalgeleide lokalisatietaken in 3D-scènes, zoals grounding, heeft deze taak specifieke uitdagingen: ze is ambigu omdat er meerdere geldige oplossingen zijn, en ze vereist redeneren over 3D-geometrische relaties en vrije ruimte. We lanceren deze taak door een nieuwe benchmark en evaluatieprotocol voor te stellen. We introduceren ook een nieuwe dataset voor het trainen van 3D LLM's op deze taak, evenals de eerste methode die als een niet-triviale baseline dient. We geloven dat deze uitdagende taak en onze nieuwe benchmark deel kunnen uitmaken van de suite van benchmarks die worden gebruikt om generalistische 3D LLM-modellen te evalueren en te vergelijken.
English
We introduce the novel task of Language-Guided Object Placement in Real 3D
Scenes. Our model is given a 3D scene's point cloud, a 3D asset, and a textual
prompt broadly describing where the 3D asset should be placed. The task here is
to find a valid placement for the 3D asset that respects the prompt. Compared
with other language-guided localization tasks in 3D scenes such as grounding,
this task has specific challenges: it is ambiguous because it has multiple
valid solutions, and it requires reasoning about 3D geometric relationships and
free space. We inaugurate this task by proposing a new benchmark and evaluation
protocol. We also introduce a new dataset for training 3D LLMs on this task, as
well as the first method to serve as a non-trivial baseline. We believe that
this challenging task and our new benchmark could become part of the suite of
benchmarks used to evaluate and compare generalist 3D LLM models.