MeshCoder: Generazione Strutturata di Codici Mesh da Nuvole di Punti Basata su LLM
MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds
August 20, 2025
Autori: Bingquan Dai, Li Ray Luo, Qihong Tang, Jie Wang, Xinyu Lian, Hao Xu, Minghan Qin, Xudong Xu, Bo Dai, Haoqian Wang, Zhaoyang Lyu, Jiangmiao Pang
cs.AI
Abstract
La ricostruzione di oggetti 3D in programmi modificabili è fondamentale per applicazioni come il reverse engineering e l'editing di forme. Tuttavia, i metodi esistenti spesso si basano su linguaggi specifici di dominio (DSL) limitati e su dataset di piccole dimensioni, riducendo la loro capacità di modellare geometrie e strutture complesse. Per affrontare queste sfide, introduciamo MeshCoder, un framework innovativo che ricostruisce oggetti 3D complessi da nuvole di punti in script Python modificabili per Blender. Sviluppiamo un insieme completo di API Python per Blender espressive, in grado di sintetizzare geometrie intricate. Sfruttando queste API, costruiamo un dataset su larga scala di oggetti e codice accoppiati, in cui il codice per ciascun oggetto è scomposto in parti semantiche distinte. Successivamente, addestriamo un modello di linguaggio multimodale di grandi dimensioni (LLM) che traduce nuvole di punti 3D in script Python eseguibili per Blender. Il nostro approccio non solo raggiunge prestazioni superiori nei compiti di ricostruzione da forma a codice, ma facilita anche l'editing geometrico e topologico intuitivo attraverso modifiche convenienti del codice. Inoltre, la nostra rappresentazione basata su codice migliora le capacità di ragionamento degli LLM nei compiti di comprensione delle forme 3D. Insieme, questi contributi stabiliscono MeshCoder come una soluzione potente e flessibile per la ricostruzione e la comprensione programmatica delle forme 3D.
English
Reconstructing 3D objects into editable programs is pivotal for applications
like reverse engineering and shape editing. However, existing methods often
rely on limited domain-specific languages (DSLs) and small-scale datasets,
restricting their ability to model complex geometries and structures. To
address these challenges, we introduce MeshCoder, a novel framework that
reconstructs complex 3D objects from point clouds into editable Blender Python
scripts. We develop a comprehensive set of expressive Blender Python APIs
capable of synthesizing intricate geometries. Leveraging these APIs, we
construct a large-scale paired object-code dataset, where the code for each
object is decomposed into distinct semantic parts. Subsequently, we train a
multimodal large language model (LLM) that translates 3D point cloud into
executable Blender Python scripts. Our approach not only achieves superior
performance in shape-to-code reconstruction tasks but also facilitates
intuitive geometric and topological editing through convenient code
modifications. Furthermore, our code-based representation enhances the
reasoning capabilities of LLMs in 3D shape understanding tasks. Together, these
contributions establish MeshCoder as a powerful and flexible solution for
programmatic 3D shape reconstruction and understanding.