PlaceIt3D: Размещение объектов в реальных 3D-сценах с использованием языковых инструкций
PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes
May 8, 2025
Авторы: Ahmed Abdelreheem, Filippo Aleotti, Jamie Watson, Zawar Qureshi, Abdelrahman Eldesokey, Peter Wonka, Gabriel Brostow, Sara Vicente, Guillermo Garcia-Hernando
cs.AI
Аннотация
Мы представляем новую задачу размещения объектов в реальных 3D-сценах на основе языковых инструкций. Наша модель получает облако точек 3D-сцены, 3D-объект и текстовый запрос, описывающий, где примерно должен быть размещён 3D-объект. Задача заключается в нахождении допустимого места для 3D-объекта, которое соответствует запросу. По сравнению с другими задачами локализации в 3D-сценах на основе языка, такими как привязка, эта задача имеет свои специфические сложности: она неоднозначна, так как имеет множество допустимых решений, и требует анализа 3D-геометрических отношений и свободного пространства. Мы открываем эту задачу, предлагая новый эталонный тест и протокол оценки. Также мы представляем новый набор данных для обучения 3D-языковых моделей на этой задаче, а также первый метод, который служит нетривиальной базовой линией. Мы считаем, что эта сложная задача и наш новый эталонный тест могут стать частью набора тестов, используемых для оценки и сравнения универсальных 3D-языковых моделей.
English
We introduce the novel task of Language-Guided Object Placement in Real 3D
Scenes. Our model is given a 3D scene's point cloud, a 3D asset, and a textual
prompt broadly describing where the 3D asset should be placed. The task here is
to find a valid placement for the 3D asset that respects the prompt. Compared
with other language-guided localization tasks in 3D scenes such as grounding,
this task has specific challenges: it is ambiguous because it has multiple
valid solutions, and it requires reasoning about 3D geometric relationships and
free space. We inaugurate this task by proposing a new benchmark and evaluation
protocol. We also introduce a new dataset for training 3D LLMs on this task, as
well as the first method to serve as a non-trivial baseline. We believe that
this challenging task and our new benchmark could become part of the suite of
benchmarks used to evaluate and compare generalist 3D LLM models.Summary
AI-Generated Summary