PlaceIt3D: Colocación de Objetos Guiada por Lenguaje en Escenas 3D Reales
PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes
May 8, 2025
Autores: Ahmed Abdelreheem, Filippo Aleotti, Jamie Watson, Zawar Qureshi, Abdelrahman Eldesokey, Peter Wonka, Gabriel Brostow, Sara Vicente, Guillermo Garcia-Hernando
cs.AI
Resumen
Presentamos la novedosa tarea de Colocación de Objetos Guiada por Lenguaje en Escenas 3D Reales. Nuestro modelo recibe una nube de puntos de una escena 3D, un activo 3D y una indicación textual que describe de manera general dónde debería colocarse el activo 3D. La tarea consiste en encontrar una ubicación válida para el activo 3D que respete la indicación. En comparación con otras tareas de localización guiada por lenguaje en escenas 3D, como la fundamentación, esta tarea presenta desafíos específicos: es ambigua porque tiene múltiples soluciones válidas y requiere razonar sobre relaciones geométricas 3D y espacio libre. Inauguramos esta tarea proponiendo un nuevo punto de referencia y un protocolo de evaluación. También introducimos un nuevo conjunto de datos para entrenar modelos de lenguaje grandes (LLM) en 3D para esta tarea, así como el primer método que sirve como una línea base no trivial. Creemos que esta tarea desafiante y nuestro nuevo punto de referencia podrían formar parte del conjunto de pruebas utilizadas para evaluar y comparar modelos generalistas de LLM en 3D.
English
We introduce the novel task of Language-Guided Object Placement in Real 3D
Scenes. Our model is given a 3D scene's point cloud, a 3D asset, and a textual
prompt broadly describing where the 3D asset should be placed. The task here is
to find a valid placement for the 3D asset that respects the prompt. Compared
with other language-guided localization tasks in 3D scenes such as grounding,
this task has specific challenges: it is ambiguous because it has multiple
valid solutions, and it requires reasoning about 3D geometric relationships and
free space. We inaugurate this task by proposing a new benchmark and evaluation
protocol. We also introduce a new dataset for training 3D LLMs on this task, as
well as the first method to serve as a non-trivial baseline. We believe that
this challenging task and our new benchmark could become part of the suite of
benchmarks used to evaluate and compare generalist 3D LLM models.Summary
AI-Generated Summary