PlaceIt3D: Sprachgesteuerte Objektplatzierung in realen 3D-Szenen
PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes
May 8, 2025
Autoren: Ahmed Abdelreheem, Filippo Aleotti, Jamie Watson, Zawar Qureshi, Abdelrahman Eldesokey, Peter Wonka, Gabriel Brostow, Sara Vicente, Guillermo Garcia-Hernando
cs.AI
Zusammenfassung
Wir stellen die neuartige Aufgabe des sprachgesteuerten Objektplatzierens in realen 3D-Szenen vor. Unser Modell erhält eine Punktwolke einer 3D-Szene, ein 3D-Asset und einen Textprompt, der grob beschreibt, wo das 3D-Asset platziert werden soll. Die Aufgabe besteht darin, eine gültige Platzierung für das 3D-Asset zu finden, die den Prompt berücksichtigt. Im Vergleich zu anderen sprachgesteuerten Lokalisierungsaufgaben in 3D-Szenen, wie z.B. dem Grounding, stellt diese Aufgabe spezifische Herausforderungen dar: Sie ist mehrdeutig, da sie mehrere gültige Lösungen hat, und erfordert das Nachdenken über 3D-geometrische Beziehungen und freien Raum. Wir initiieren diese Aufgabe, indem wir einen neuen Benchmark und ein Bewertungsprotokoll vorschlagen. Außerdem stellen wir einen neuen Datensatz für das Training von 3D-LLMs für diese Aufgabe sowie die erste Methode als nicht-triviale Baseline vor. Wir glauben, dass diese anspruchsvolle Aufgabe und unser neuer Benchmark Teil der Suite von Benchmarks werden könnten, die zur Bewertung und zum Vergleich von generalistischen 3D-LLM-Modellen verwendet werden.
English
We introduce the novel task of Language-Guided Object Placement in Real 3D
Scenes. Our model is given a 3D scene's point cloud, a 3D asset, and a textual
prompt broadly describing where the 3D asset should be placed. The task here is
to find a valid placement for the 3D asset that respects the prompt. Compared
with other language-guided localization tasks in 3D scenes such as grounding,
this task has specific challenges: it is ambiguous because it has multiple
valid solutions, and it requires reasoning about 3D geometric relationships and
free space. We inaugurate this task by proposing a new benchmark and evaluation
protocol. We also introduce a new dataset for training 3D LLMs on this task, as
well as the first method to serve as a non-trivial baseline. We believe that
this challenging task and our new benchmark could become part of the suite of
benchmarks used to evaluate and compare generalist 3D LLM models.Summary
AI-Generated Summary