ChatPaper.aiChatPaper

PlaceIt3D: Sprachgesteuerte Objektplatzierung in realen 3D-Szenen

PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes

May 8, 2025
Autoren: Ahmed Abdelreheem, Filippo Aleotti, Jamie Watson, Zawar Qureshi, Abdelrahman Eldesokey, Peter Wonka, Gabriel Brostow, Sara Vicente, Guillermo Garcia-Hernando
cs.AI

Zusammenfassung

Wir stellen die neuartige Aufgabe des sprachgesteuerten Objektplatzierens in realen 3D-Szenen vor. Unser Modell erhält eine Punktwolke einer 3D-Szene, ein 3D-Asset und einen Textprompt, der grob beschreibt, wo das 3D-Asset platziert werden soll. Die Aufgabe besteht darin, eine gültige Platzierung für das 3D-Asset zu finden, die den Prompt berücksichtigt. Im Vergleich zu anderen sprachgesteuerten Lokalisierungsaufgaben in 3D-Szenen, wie z.B. dem Grounding, stellt diese Aufgabe spezifische Herausforderungen dar: Sie ist mehrdeutig, da sie mehrere gültige Lösungen hat, und erfordert das Nachdenken über 3D-geometrische Beziehungen und freien Raum. Wir initiieren diese Aufgabe, indem wir einen neuen Benchmark und ein Bewertungsprotokoll vorschlagen. Außerdem stellen wir einen neuen Datensatz für das Training von 3D-LLMs für diese Aufgabe sowie die erste Methode als nicht-triviale Baseline vor. Wir glauben, dass diese anspruchsvolle Aufgabe und unser neuer Benchmark Teil der Suite von Benchmarks werden könnten, die zur Bewertung und zum Vergleich von generalistischen 3D-LLM-Modellen verwendet werden.
English
We introduce the novel task of Language-Guided Object Placement in Real 3D Scenes. Our model is given a 3D scene's point cloud, a 3D asset, and a textual prompt broadly describing where the 3D asset should be placed. The task here is to find a valid placement for the 3D asset that respects the prompt. Compared with other language-guided localization tasks in 3D scenes such as grounding, this task has specific challenges: it is ambiguous because it has multiple valid solutions, and it requires reasoning about 3D geometric relationships and free space. We inaugurate this task by proposing a new benchmark and evaluation protocol. We also introduce a new dataset for training 3D LLMs on this task, as well as the first method to serve as a non-trivial baseline. We believe that this challenging task and our new benchmark could become part of the suite of benchmarks used to evaluate and compare generalist 3D LLM models.

Summary

AI-Generated Summary

PDF61May 9, 2025