ChatPaper.aiChatPaper

PlaceIt3D: Posizionamento di Oggetti Guidato dal Linguaggio in Scene 3D Reali

PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes

May 8, 2025
Autori: Ahmed Abdelreheem, Filippo Aleotti, Jamie Watson, Zawar Qureshi, Abdelrahman Eldesokey, Peter Wonka, Gabriel Brostow, Sara Vicente, Guillermo Garcia-Hernando
cs.AI

Abstract

Introduciamo il nuovo compito del Posizionamento di Oggetti Guidato dal Linguaggio in Scene 3D Reali. Il nostro modello riceve una nuvola di punti di una scena 3D, un asset 3D e un prompt testuale che descrive in modo generico dove l'asset 3D dovrebbe essere posizionato. Il compito consiste nel trovare un posizionamento valido per l'asset 3D che rispetti il prompt. Rispetto ad altri compiti di localizzazione guidata dal linguaggio in scene 3D, come il grounding, questo compito presenta sfide specifiche: è ambiguo perché ammette più soluzioni valide e richiede un ragionamento sulle relazioni geometriche 3D e sullo spazio libero. Inauguriamo questo compito proponendo un nuovo benchmark e un protocollo di valutazione. Introduciamo inoltre un nuovo dataset per addestrare modelli LLM 3D su questo compito, nonché il primo metodo che funge da baseline non banale. Crediamo che questo compito impegnativo e il nostro nuovo benchmark possano diventare parte della suite di benchmark utilizzati per valutare e confrontare modelli LLM 3D generalisti.
English
We introduce the novel task of Language-Guided Object Placement in Real 3D Scenes. Our model is given a 3D scene's point cloud, a 3D asset, and a textual prompt broadly describing where the 3D asset should be placed. The task here is to find a valid placement for the 3D asset that respects the prompt. Compared with other language-guided localization tasks in 3D scenes such as grounding, this task has specific challenges: it is ambiguous because it has multiple valid solutions, and it requires reasoning about 3D geometric relationships and free space. We inaugurate this task by proposing a new benchmark and evaluation protocol. We also introduce a new dataset for training 3D LLMs on this task, as well as the first method to serve as a non-trivial baseline. We believe that this challenging task and our new benchmark could become part of the suite of benchmarks used to evaluate and compare generalist 3D LLM models.
PDF132May 9, 2025