FirePlace : Affinements géométriques du raisonnement de bon sens des LLM pour le placement d'objets en 3D

papers.abstract

La génération de scènes avec des actifs 3D représente un défi complexe, nécessitant à la fois une compréhension sémantique de haut niveau et un raisonnement géométrique de bas niveau. Bien que les Modèles de Langage Multimodaux de Grande Taille (MLLMs) excellent dans les tâches sémantiques, leur application à la génération de scènes 3D est entravée par leur ancrage limité dans la géométrie 3D. Dans cet article, nous étudions comment exploiter au mieux les MLLMs pour une tâche de placement d'objets. Pour atteindre cet objectif, nous introduisons un nouveau cadre, FirePlace, qui applique les MLLMs existants à (1) un raisonnement géométrique 3D et à l'extraction de détails géométriques pertinents de la scène 3D, (2) la construction et la résolution de contraintes géométriques sur la géométrie de bas niveau extraite, et (3) l'élagage pour des placements finaux conformes au bon sens. En combinant le raisonnement géométrique avec la compréhension du monde réel des MLLMs, notre méthode peut proposer des placements d'objets qui satisfont à la fois les contraintes géométriques et les considérations sémantiques de haut niveau basées sur le bon sens. Nos expériences montrent que ces capacités permettent à notre méthode de placer des objets plus efficacement dans des scènes complexes avec une géométrie intricate, surpassant la qualité des travaux antérieurs.

English

Scene generation with 3D assets presents a complex challenge, requiring both high-level semantic understanding and low-level geometric reasoning. While Multimodal Large Language Models (MLLMs) excel at semantic tasks, their application to 3D scene generation is hindered by their limited grounding on 3D geometry. In this paper, we investigate how to best work with MLLMs in an object placement task. Towards this goal, we introduce a novel framework, FirePlace, that applies existing MLLMs in (1) 3D geometric reasoning and the extraction of relevant geometric details from the 3D scene, (2) constructing and solving geometric constraints on the extracted low-level geometry, and (3) pruning for final placements that conform to common sense. By combining geometric reasoning with real-world understanding of MLLMs, our method can propose object placements that satisfy both geometric constraints as well as high-level semantic common-sense considerations. Our experiments show that these capabilities allow our method to place objects more effectively in complex scenes with intricate geometry, surpassing the quality of prior work.

FirePlace : Affinements géométriques du raisonnement de bon sens des LLM pour le placement d'objets en 3D

FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object Placement

papers.abstract

Support