MeshCoder: 点群からの構造化メッシュコード生成をLLMで実現
MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds
August 20, 2025
著者: Bingquan Dai, Li Ray Luo, Qihong Tang, Jie Wang, Xinyu Lian, Hao Xu, Minghan Qin, Xudong Xu, Bo Dai, Haoqian Wang, Zhaoyang Lyu, Jiangmiao Pang
cs.AI
要旨
3Dオブジェクトを編集可能なプログラムに再構築することは、リバースエンジニアリングや形状編集などのアプリケーションにおいて極めて重要である。しかし、既存の手法はしばしば限定的なドメイン固有言語(DSL)と小規模なデータセットに依存しており、複雑な幾何学的構造や形状をモデル化する能力が制限されている。これらの課題に対処するため、我々はMeshCoderを提案する。これは、点群から複雑な3Dオブジェクトを編集可能なBlender Pythonスクリプトに再構築する新しいフレームワークである。我々は、複雑な幾何学的形状を合成可能な包括的なBlender Python APIセットを開発した。これらのAPIを活用し、各オブジェクトのコードを意味的に分解した大規模なオブジェクト-コードペアデータセットを構築した。その後、3D点群を実行可能なBlender Pythonスクリプトに変換するマルチモーダル大規模言語モデル(LLM)を訓練した。我々のアプローチは、形状からコードへの再構築タスクにおいて優れた性能を発揮するだけでなく、コードの簡単な修正を通じて直感的な幾何学的および位相的な編集を可能にする。さらに、コードベースの表現は、3D形状理解タスクにおけるLLMの推論能力を向上させる。これらの貢献により、MeshCoderはプログラムによる3D形状の再構築と理解における強力で柔軟なソリューションとして確立された。
English
Reconstructing 3D objects into editable programs is pivotal for applications
like reverse engineering and shape editing. However, existing methods often
rely on limited domain-specific languages (DSLs) and small-scale datasets,
restricting their ability to model complex geometries and structures. To
address these challenges, we introduce MeshCoder, a novel framework that
reconstructs complex 3D objects from point clouds into editable Blender Python
scripts. We develop a comprehensive set of expressive Blender Python APIs
capable of synthesizing intricate geometries. Leveraging these APIs, we
construct a large-scale paired object-code dataset, where the code for each
object is decomposed into distinct semantic parts. Subsequently, we train a
multimodal large language model (LLM) that translates 3D point cloud into
executable Blender Python scripts. Our approach not only achieves superior
performance in shape-to-code reconstruction tasks but also facilitates
intuitive geometric and topological editing through convenient code
modifications. Furthermore, our code-based representation enhances the
reasoning capabilities of LLMs in 3D shape understanding tasks. Together, these
contributions establish MeshCoder as a powerful and flexible solution for
programmatic 3D shape reconstruction and understanding.