MeshCoder: LLM-gestützte Generierung von strukturierten Gitternetzen aus Punktwolken

papers.abstract

Die Rekonstruktion von 3D-Objekten in bearbeitbare Programme ist entscheidend für Anwendungen wie Reverse Engineering und Formbearbeitung. Bisherige Methoden stützen sich jedoch oft auf eingeschränkte domänenspezifische Sprachen (DSLs) und kleinere Datensätze, was ihre Fähigkeit zur Modellierung komplexer Geometrien und Strukturen einschränkt. Um diese Herausforderungen zu bewältigen, stellen wir MeshCoder vor, ein neuartiges Framework, das komplexe 3D-Objekte aus Punktwolken in bearbeitbare Blender-Python-Skripte rekonstruiert. Wir entwickeln einen umfassenden Satz ausdrucksstarker Blender-Python-APIs, die in der Lage sind, komplexe Geometrien zu synthetisieren. Mithilfe dieser APIs erstellen wir einen groß angelegten gepaarten Objekt-Code-Datensatz, bei dem der Code für jedes Objekt in separate semantische Teile zerlegt wird. Anschließend trainieren wir ein multimodales großes Sprachmodell (LLM), das 3D-Punktwolken in ausführbare Blender-Python-Skripte übersetzt. Unser Ansatz erzielt nicht nur überlegene Leistung bei der Rekonstruktion von Formen zu Code, sondern ermöglicht auch intuitive geometrische und topologische Bearbeitungen durch einfache Code-Anpassungen. Darüber hinaus verbessert unsere codebasierte Darstellung die Fähigkeiten von LLMs bei Aufgaben zum Verständnis von 3D-Formen. Zusammengenommen etablieren diese Beiträge MeshCoder als eine leistungsstarke und flexible Lösung für die programmatische Rekonstruktion und das Verständnis von 3D-Formen.

English

Reconstructing 3D objects into editable programs is pivotal for applications like reverse engineering and shape editing. However, existing methods often rely on limited domain-specific languages (DSLs) and small-scale datasets, restricting their ability to model complex geometries and structures. To address these challenges, we introduce MeshCoder, a novel framework that reconstructs complex 3D objects from point clouds into editable Blender Python scripts. We develop a comprehensive set of expressive Blender Python APIs capable of synthesizing intricate geometries. Leveraging these APIs, we construct a large-scale paired object-code dataset, where the code for each object is decomposed into distinct semantic parts. Subsequently, we train a multimodal large language model (LLM) that translates 3D point cloud into executable Blender Python scripts. Our approach not only achieves superior performance in shape-to-code reconstruction tasks but also facilitates intuitive geometric and topological editing through convenient code modifications. Furthermore, our code-based representation enhances the reasoning capabilities of LLMs in 3D shape understanding tasks. Together, these contributions establish MeshCoder as a powerful and flexible solution for programmatic 3D shape reconstruction and understanding.

MeshCoder: LLM-gestützte Generierung von strukturierten Gitternetzen aus Punktwolken

MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds

papers.abstract

Support