ChatPaper.aiChatPaper

PlaceIt3D: Размещение объектов в реальных 3D-сценах с использованием языковых инструкций

PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes

May 8, 2025
Авторы: Ahmed Abdelreheem, Filippo Aleotti, Jamie Watson, Zawar Qureshi, Abdelrahman Eldesokey, Peter Wonka, Gabriel Brostow, Sara Vicente, Guillermo Garcia-Hernando
cs.AI

Аннотация

Мы представляем новую задачу размещения объектов в реальных 3D-сценах на основе языковых инструкций. Наша модель получает облако точек 3D-сцены, 3D-объект и текстовый запрос, описывающий, где примерно должен быть размещён 3D-объект. Задача заключается в нахождении допустимого места для 3D-объекта, которое соответствует запросу. По сравнению с другими задачами локализации в 3D-сценах на основе языка, такими как привязка, эта задача имеет свои специфические сложности: она неоднозначна, так как имеет множество допустимых решений, и требует анализа 3D-геометрических отношений и свободного пространства. Мы открываем эту задачу, предлагая новый эталонный тест и протокол оценки. Также мы представляем новый набор данных для обучения 3D-языковых моделей на этой задаче, а также первый метод, который служит нетривиальной базовой линией. Мы считаем, что эта сложная задача и наш новый эталонный тест могут стать частью набора тестов, используемых для оценки и сравнения универсальных 3D-языковых моделей.
English
We introduce the novel task of Language-Guided Object Placement in Real 3D Scenes. Our model is given a 3D scene's point cloud, a 3D asset, and a textual prompt broadly describing where the 3D asset should be placed. The task here is to find a valid placement for the 3D asset that respects the prompt. Compared with other language-guided localization tasks in 3D scenes such as grounding, this task has specific challenges: it is ambiguous because it has multiple valid solutions, and it requires reasoning about 3D geometric relationships and free space. We inaugurate this task by proposing a new benchmark and evaluation protocol. We also introduce a new dataset for training 3D LLMs on this task, as well as the first method to serve as a non-trivial baseline. We believe that this challenging task and our new benchmark could become part of the suite of benchmarks used to evaluate and compare generalist 3D LLM models.

Summary

AI-Generated Summary

PDF61May 9, 2025