PlaceIt3D: Posicionamento de Objetos Orientado por Linguagem em Cenas 3D Reais
PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes
May 8, 2025
Autores: Ahmed Abdelreheem, Filippo Aleotti, Jamie Watson, Zawar Qureshi, Abdelrahman Eldesokey, Peter Wonka, Gabriel Brostow, Sara Vicente, Guillermo Garcia-Hernando
cs.AI
Resumo
Apresentamos a nova tarefa de Posicionamento de Objetos Guiado por Linguagem em Cenas 3D Reais. Nosso modelo recebe a nuvem de pontos de uma cena 3D, um ativo 3D e um prompt textual que descreve de forma ampla onde o ativo 3D deve ser posicionado. A tarefa aqui é encontrar um posicionamento válido para o ativo 3D que respeite o prompt. Em comparação com outras tarefas de localização guiada por linguagem em cenas 3D, como o grounding, esta tarefa apresenta desafios específicos: ela é ambígua porque possui múltiplas soluções válidas e requer raciocínio sobre relações geométricas 3D e espaço livre. Inauguramos esta tarefa propondo um novo benchmark e protocolo de avaliação. Também introduzimos um novo conjunto de dados para treinar LLMs 3D nesta tarefa, bem como o primeiro método a servir como uma linha de base não trivial. Acreditamos que esta tarefa desafiadora e nosso novo benchmark podem se tornar parte do conjunto de benchmarks usados para avaliar e comparar modelos gerais de LLMs 3D.
English
We introduce the novel task of Language-Guided Object Placement in Real 3D
Scenes. Our model is given a 3D scene's point cloud, a 3D asset, and a textual
prompt broadly describing where the 3D asset should be placed. The task here is
to find a valid placement for the 3D asset that respects the prompt. Compared
with other language-guided localization tasks in 3D scenes such as grounding,
this task has specific challenges: it is ambiguous because it has multiple
valid solutions, and it requires reasoning about 3D geometric relationships and
free space. We inaugurate this task by proposing a new benchmark and evaluation
protocol. We also introduce a new dataset for training 3D LLMs on this task, as
well as the first method to serve as a non-trivial baseline. We believe that
this challenging task and our new benchmark could become part of the suite of
benchmarks used to evaluate and compare generalist 3D LLM models.