MeshCoder: LLM-gestützte Generierung von strukturierten Gitternetzen aus Punktwolken
MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds
August 20, 2025
papers.authors: Bingquan Dai, Li Ray Luo, Qihong Tang, Jie Wang, Xinyu Lian, Hao Xu, Minghan Qin, Xudong Xu, Bo Dai, Haoqian Wang, Zhaoyang Lyu, Jiangmiao Pang
cs.AI
papers.abstract
Die Rekonstruktion von 3D-Objekten in bearbeitbare Programme ist entscheidend für Anwendungen wie Reverse Engineering und Formbearbeitung. Bisherige Methoden stützen sich jedoch oft auf eingeschränkte domänenspezifische Sprachen (DSLs) und kleinere Datensätze, was ihre Fähigkeit zur Modellierung komplexer Geometrien und Strukturen einschränkt. Um diese Herausforderungen zu bewältigen, stellen wir MeshCoder vor, ein neuartiges Framework, das komplexe 3D-Objekte aus Punktwolken in bearbeitbare Blender-Python-Skripte rekonstruiert. Wir entwickeln einen umfassenden Satz ausdrucksstarker Blender-Python-APIs, die in der Lage sind, komplexe Geometrien zu synthetisieren. Mithilfe dieser APIs erstellen wir einen groß angelegten gepaarten Objekt-Code-Datensatz, bei dem der Code für jedes Objekt in separate semantische Teile zerlegt wird. Anschließend trainieren wir ein multimodales großes Sprachmodell (LLM), das 3D-Punktwolken in ausführbare Blender-Python-Skripte übersetzt. Unser Ansatz erzielt nicht nur überlegene Leistung bei der Rekonstruktion von Formen zu Code, sondern ermöglicht auch intuitive geometrische und topologische Bearbeitungen durch einfache Code-Anpassungen. Darüber hinaus verbessert unsere codebasierte Darstellung die Fähigkeiten von LLMs bei Aufgaben zum Verständnis von 3D-Formen. Zusammengenommen etablieren diese Beiträge MeshCoder als eine leistungsstarke und flexible Lösung für die programmatische Rekonstruktion und das Verständnis von 3D-Formen.
English
Reconstructing 3D objects into editable programs is pivotal for applications
like reverse engineering and shape editing. However, existing methods often
rely on limited domain-specific languages (DSLs) and small-scale datasets,
restricting their ability to model complex geometries and structures. To
address these challenges, we introduce MeshCoder, a novel framework that
reconstructs complex 3D objects from point clouds into editable Blender Python
scripts. We develop a comprehensive set of expressive Blender Python APIs
capable of synthesizing intricate geometries. Leveraging these APIs, we
construct a large-scale paired object-code dataset, where the code for each
object is decomposed into distinct semantic parts. Subsequently, we train a
multimodal large language model (LLM) that translates 3D point cloud into
executable Blender Python scripts. Our approach not only achieves superior
performance in shape-to-code reconstruction tasks but also facilitates
intuitive geometric and topological editing through convenient code
modifications. Furthermore, our code-based representation enhances the
reasoning capabilities of LLMs in 3D shape understanding tasks. Together, these
contributions establish MeshCoder as a powerful and flexible solution for
programmatic 3D shape reconstruction and understanding.