PlaceIt3D : Placement d'objets guidé par le langage dans des scènes 3D réelles
PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes
May 8, 2025
Auteurs: Ahmed Abdelreheem, Filippo Aleotti, Jamie Watson, Zawar Qureshi, Abdelrahman Eldesokey, Peter Wonka, Gabriel Brostow, Sara Vicente, Guillermo Garcia-Hernando
cs.AI
Résumé
Nous introduisons la nouvelle tâche du Placement d'Objets Guidé par le Langage dans des Scènes 3D Réelles. Notre modèle reçoit un nuage de points d'une scène 3D, un asset 3D, et une instruction textuelle décrivant de manière générale où l'asset 3D devrait être placé. La tâche consiste ici à trouver un placement valide pour l'asset 3D qui respecte l'instruction. Comparée à d'autres tâches de localisation guidée par le langage dans des scènes 3D, comme l'ancrage, cette tâche présente des défis spécifiques : elle est ambiguë car elle admet plusieurs solutions valides, et elle nécessite un raisonnement sur les relations géométriques 3D et l'espace libre. Nous inaugurons cette tâche en proposant un nouveau benchmark et un protocole d'évaluation. Nous introduisons également un nouveau jeu de données pour entraîner des modèles de langage 3D sur cette tâche, ainsi que la première méthode servant de base de référence non triviale. Nous pensons que cette tâche exigeante et notre nouveau benchmark pourraient s'intégrer à la suite de benchmarks utilisés pour évaluer et comparer les modèles de langage 3D généralistes.
English
We introduce the novel task of Language-Guided Object Placement in Real 3D
Scenes. Our model is given a 3D scene's point cloud, a 3D asset, and a textual
prompt broadly describing where the 3D asset should be placed. The task here is
to find a valid placement for the 3D asset that respects the prompt. Compared
with other language-guided localization tasks in 3D scenes such as grounding,
this task has specific challenges: it is ambiguous because it has multiple
valid solutions, and it requires reasoning about 3D geometric relationships and
free space. We inaugurate this task by proposing a new benchmark and evaluation
protocol. We also introduce a new dataset for training 3D LLMs on this task, as
well as the first method to serve as a non-trivial baseline. We believe that
this challenging task and our new benchmark could become part of the suite of
benchmarks used to evaluate and compare generalist 3D LLM models.Summary
AI-Generated Summary