FirePlace : Affinements géométriques du raisonnement de bon sens des LLM pour le placement d'objets en 3D
FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object Placement
March 6, 2025
Auteurs: Ian Huang, Yanan Bao, Karen Truong, Howard Zhou, Cordelia Schmid, Leonidas Guibas, Alireza Fathi
cs.AI
Résumé
La génération de scènes avec des actifs 3D représente un défi complexe, nécessitant à la fois une compréhension sémantique de haut niveau et un raisonnement géométrique de bas niveau. Bien que les Modèles de Langage Multimodaux de Grande Taille (MLLMs) excellent dans les tâches sémantiques, leur application à la génération de scènes 3D est entravée par leur ancrage limité dans la géométrie 3D. Dans cet article, nous étudions comment exploiter au mieux les MLLMs pour une tâche de placement d'objets. Pour atteindre cet objectif, nous introduisons un nouveau cadre, FirePlace, qui applique les MLLMs existants à (1) un raisonnement géométrique 3D et à l'extraction de détails géométriques pertinents de la scène 3D, (2) la construction et la résolution de contraintes géométriques sur la géométrie de bas niveau extraite, et (3) l'élagage pour des placements finaux conformes au bon sens. En combinant le raisonnement géométrique avec la compréhension du monde réel des MLLMs, notre méthode peut proposer des placements d'objets qui satisfont à la fois les contraintes géométriques et les considérations sémantiques de haut niveau basées sur le bon sens. Nos expériences montrent que ces capacités permettent à notre méthode de placer des objets plus efficacement dans des scènes complexes avec une géométrie intricate, surpassant la qualité des travaux antérieurs.
English
Scene generation with 3D assets presents a complex challenge, requiring both
high-level semantic understanding and low-level geometric reasoning. While
Multimodal Large Language Models (MLLMs) excel at semantic tasks, their
application to 3D scene generation is hindered by their limited grounding on 3D
geometry. In this paper, we investigate how to best work with MLLMs in an
object placement task. Towards this goal, we introduce a novel framework,
FirePlace, that applies existing MLLMs in (1) 3D geometric reasoning and the
extraction of relevant geometric details from the 3D scene, (2) constructing
and solving geometric constraints on the extracted low-level geometry, and (3)
pruning for final placements that conform to common sense. By combining
geometric reasoning with real-world understanding of MLLMs, our method can
propose object placements that satisfy both geometric constraints as well as
high-level semantic common-sense considerations. Our experiments show that
these capabilities allow our method to place objects more effectively in
complex scenes with intricate geometry, surpassing the quality of prior work.Summary
AI-Generated Summary