ChatPaper.aiChatPaper

PlaceIt3D: Posicionamento de Objetos Orientado por Linguagem em Cenas 3D Reais

PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes

May 8, 2025
Autores: Ahmed Abdelreheem, Filippo Aleotti, Jamie Watson, Zawar Qureshi, Abdelrahman Eldesokey, Peter Wonka, Gabriel Brostow, Sara Vicente, Guillermo Garcia-Hernando
cs.AI

Resumo

Apresentamos a nova tarefa de Posicionamento de Objetos Guiado por Linguagem em Cenas 3D Reais. Nosso modelo recebe a nuvem de pontos de uma cena 3D, um ativo 3D e um prompt textual que descreve de forma ampla onde o ativo 3D deve ser posicionado. A tarefa aqui é encontrar um posicionamento válido para o ativo 3D que respeite o prompt. Em comparação com outras tarefas de localização guiada por linguagem em cenas 3D, como o grounding, esta tarefa apresenta desafios específicos: ela é ambígua porque possui múltiplas soluções válidas e requer raciocínio sobre relações geométricas 3D e espaço livre. Inauguramos esta tarefa propondo um novo benchmark e protocolo de avaliação. Também introduzimos um novo conjunto de dados para treinar LLMs 3D nesta tarefa, bem como o primeiro método a servir como uma linha de base não trivial. Acreditamos que esta tarefa desafiadora e nosso novo benchmark podem se tornar parte do conjunto de benchmarks usados para avaliar e comparar modelos gerais de LLMs 3D.
English
We introduce the novel task of Language-Guided Object Placement in Real 3D Scenes. Our model is given a 3D scene's point cloud, a 3D asset, and a textual prompt broadly describing where the 3D asset should be placed. The task here is to find a valid placement for the 3D asset that respects the prompt. Compared with other language-guided localization tasks in 3D scenes such as grounding, this task has specific challenges: it is ambiguous because it has multiple valid solutions, and it requires reasoning about 3D geometric relationships and free space. We inaugurate this task by proposing a new benchmark and evaluation protocol. We also introduce a new dataset for training 3D LLMs on this task, as well as the first method to serve as a non-trivial baseline. We believe that this challenging task and our new benchmark could become part of the suite of benchmarks used to evaluate and compare generalist 3D LLM models.
PDF142February 7, 2026