MeshCoder: Geração de Código de Malha Estruturada Alimentada por LLM a partir de Nuvens de Pontos
MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds
August 20, 2025
Autores: Bingquan Dai, Li Ray Luo, Qihong Tang, Jie Wang, Xinyu Lian, Hao Xu, Minghan Qin, Xudong Xu, Bo Dai, Haoqian Wang, Zhaoyang Lyu, Jiangmiao Pang
cs.AI
Resumo
A reconstrução de objetos 3D em programas editáveis é fundamental para aplicações como engenharia reversa e edição de formas. No entanto, os métodos existentes frequentemente dependem de linguagens específicas de domínio (DSLs) limitadas e conjuntos de dados em pequena escala, restringindo sua capacidade de modelar geometrias e estruturas complexas. Para enfrentar esses desafios, apresentamos o MeshCoder, uma nova estrutura que reconstrói objetos 3D complexos a partir de nuvens de pontos em scripts Python editáveis no Blender. Desenvolvemos um conjunto abrangente de APIs Python expressivas para o Blender, capazes de sintetizar geometrias intrincadas. Aproveitando essas APIs, construímos um grande conjunto de dados emparelhados objeto-código, onde o código de cada objeto é decomposto em partes semânticas distintas. Posteriormente, treinamos um modelo de linguagem multimodal de grande escala (LLM) que traduz nuvens de pontos 3D em scripts Python executáveis no Blender. Nossa abordagem não apenas alcança desempenho superior em tarefas de reconstrução de forma para código, mas também facilita a edição intuitiva de geometria e topologia por meio de modificações convenientes no código. Além disso, nossa representação baseada em código aprimora as capacidades de raciocínio dos LLMs em tarefas de compreensão de formas 3D. Juntas, essas contribuições estabelecem o MeshCoder como uma solução poderosa e flexível para a reconstrução e compreensão programática de formas 3D.
English
Reconstructing 3D objects into editable programs is pivotal for applications
like reverse engineering and shape editing. However, existing methods often
rely on limited domain-specific languages (DSLs) and small-scale datasets,
restricting their ability to model complex geometries and structures. To
address these challenges, we introduce MeshCoder, a novel framework that
reconstructs complex 3D objects from point clouds into editable Blender Python
scripts. We develop a comprehensive set of expressive Blender Python APIs
capable of synthesizing intricate geometries. Leveraging these APIs, we
construct a large-scale paired object-code dataset, where the code for each
object is decomposed into distinct semantic parts. Subsequently, we train a
multimodal large language model (LLM) that translates 3D point cloud into
executable Blender Python scripts. Our approach not only achieves superior
performance in shape-to-code reconstruction tasks but also facilitates
intuitive geometric and topological editing through convenient code
modifications. Furthermore, our code-based representation enhances the
reasoning capabilities of LLMs in 3D shape understanding tasks. Together, these
contributions establish MeshCoder as a powerful and flexible solution for
programmatic 3D shape reconstruction and understanding.