MeshCoder : Génération de maillages structurés à partir de nuages de points par un modèle de langage de grande envergure
MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds
August 20, 2025
papers.authors: Bingquan Dai, Li Ray Luo, Qihong Tang, Jie Wang, Xinyu Lian, Hao Xu, Minghan Qin, Xudong Xu, Bo Dai, Haoqian Wang, Zhaoyang Lyu, Jiangmiao Pang
cs.AI
papers.abstract
La reconstruction d'objets 3D en programmes modifiables est essentielle pour des applications telles que la rétro-ingénierie et l'édition de formes. Cependant, les méthodes existantes reposent souvent sur des langages spécifiques à un domaine (DSL) limités et des jeux de données de petite taille, ce qui restreint leur capacité à modéliser des géométries et des structures complexes. Pour relever ces défis, nous présentons MeshCoder, un nouveau cadre de travail qui reconstruit des objets 3D complexes à partir de nuages de points en scripts Python modifiables pour Blender. Nous développons un ensemble complet d'API Python expressives pour Blender, capables de synthétiser des géométries complexes. En exploitant ces API, nous construisons un jeu de données apparié à grande échelle, où le code de chaque objet est décomposé en parties sémantiques distinctes. Par la suite, nous entraînons un modèle de langage multimodal (LLM) qui traduit un nuage de points 3D en scripts Python exécutables pour Blender. Notre approche non seulement atteint des performances supérieures dans les tâches de reconstruction de forme en code, mais facilite également l'édition intuitive de la géométrie et de la topologie grâce à des modifications de code pratiques. De plus, notre représentation basée sur le code améliore les capacités de raisonnement des LLM dans les tâches de compréhension des formes 3D. Ensemble, ces contributions établissent MeshCoder comme une solution puissante et flexible pour la reconstruction et la compréhension programmatique des formes 3D.
English
Reconstructing 3D objects into editable programs is pivotal for applications
like reverse engineering and shape editing. However, existing methods often
rely on limited domain-specific languages (DSLs) and small-scale datasets,
restricting their ability to model complex geometries and structures. To
address these challenges, we introduce MeshCoder, a novel framework that
reconstructs complex 3D objects from point clouds into editable Blender Python
scripts. We develop a comprehensive set of expressive Blender Python APIs
capable of synthesizing intricate geometries. Leveraging these APIs, we
construct a large-scale paired object-code dataset, where the code for each
object is decomposed into distinct semantic parts. Subsequently, we train a
multimodal large language model (LLM) that translates 3D point cloud into
executable Blender Python scripts. Our approach not only achieves superior
performance in shape-to-code reconstruction tasks but also facilitates
intuitive geometric and topological editing through convenient code
modifications. Furthermore, our code-based representation enhances the
reasoning capabilities of LLMs in 3D shape understanding tasks. Together, these
contributions establish MeshCoder as a powerful and flexible solution for
programmatic 3D shape reconstruction and understanding.