PlaceIt3D : Placement d'objets guidé par le langage dans des scènes 3D réelles

Résumé

Nous introduisons la nouvelle tâche du Placement d'Objets Guidé par le Langage dans des Scènes 3D Réelles. Notre modèle reçoit un nuage de points d'une scène 3D, un asset 3D, et une instruction textuelle décrivant de manière générale où l'asset 3D devrait être placé. La tâche consiste ici à trouver un placement valide pour l'asset 3D qui respecte l'instruction. Comparée à d'autres tâches de localisation guidée par le langage dans des scènes 3D, comme l'ancrage, cette tâche présente des défis spécifiques : elle est ambiguë car elle admet plusieurs solutions valides, et elle nécessite un raisonnement sur les relations géométriques 3D et l'espace libre. Nous inaugurons cette tâche en proposant un nouveau benchmark et un protocole d'évaluation. Nous introduisons également un nouveau jeu de données pour entraîner des modèles de langage 3D sur cette tâche, ainsi que la première méthode servant de base de référence non triviale. Nous pensons que cette tâche exigeante et notre nouveau benchmark pourraient s'intégrer à la suite de benchmarks utilisés pour évaluer et comparer les modèles de langage 3D généralistes.

English

We introduce the novel task of Language-Guided Object Placement in Real 3D Scenes. Our model is given a 3D scene's point cloud, a 3D asset, and a textual prompt broadly describing where the 3D asset should be placed. The task here is to find a valid placement for the 3D asset that respects the prompt. Compared with other language-guided localization tasks in 3D scenes such as grounding, this task has specific challenges: it is ambiguous because it has multiple valid solutions, and it requires reasoning about 3D geometric relationships and free space. We inaugurate this task by proposing a new benchmark and evaluation protocol. We also introduce a new dataset for training 3D LLMs on this task, as well as the first method to serve as a non-trivial baseline. We believe that this challenging task and our new benchmark could become part of the suite of benchmarks used to evaluate and compare generalist 3D LLM models.

PlaceIt3D : Placement d'objets guidé par le langage dans des scènes 3D réelles

PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes

Résumé

Support