PlaceIt3D: Colocación de Objetos Guiada por Lenguaje en Escenas 3D Reales

Resumen

Presentamos la novedosa tarea de Colocación de Objetos Guiada por Lenguaje en Escenas 3D Reales. Nuestro modelo recibe una nube de puntos de una escena 3D, un activo 3D y una indicación textual que describe de manera general dónde debería colocarse el activo 3D. La tarea consiste en encontrar una ubicación válida para el activo 3D que respete la indicación. En comparación con otras tareas de localización guiada por lenguaje en escenas 3D, como la fundamentación, esta tarea presenta desafíos específicos: es ambigua porque tiene múltiples soluciones válidas y requiere razonar sobre relaciones geométricas 3D y espacio libre. Inauguramos esta tarea proponiendo un nuevo punto de referencia y un protocolo de evaluación. También introducimos un nuevo conjunto de datos para entrenar modelos de lenguaje grandes (LLM) en 3D para esta tarea, así como el primer método que sirve como una línea base no trivial. Creemos que esta tarea desafiante y nuestro nuevo punto de referencia podrían formar parte del conjunto de pruebas utilizadas para evaluar y comparar modelos generalistas de LLM en 3D.

English

We introduce the novel task of Language-Guided Object Placement in Real 3D Scenes. Our model is given a 3D scene's point cloud, a 3D asset, and a textual prompt broadly describing where the 3D asset should be placed. The task here is to find a valid placement for the 3D asset that respects the prompt. Compared with other language-guided localization tasks in 3D scenes such as grounding, this task has specific challenges: it is ambiguous because it has multiple valid solutions, and it requires reasoning about 3D geometric relationships and free space. We inaugurate this task by proposing a new benchmark and evaluation protocol. We also introduce a new dataset for training 3D LLMs on this task, as well as the first method to serve as a non-trivial baseline. We believe that this challenging task and our new benchmark could become part of the suite of benchmarks used to evaluate and compare generalist 3D LLM models.

PlaceIt3D: Colocación de Objetos Guiada por Lenguaje en Escenas 3D Reales

PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes

Resumen

Support