MeshCoder: Generación de Código de Mallas Estructuradas Basada en LLM a partir de Nubes de Puntos

Resumen

La reconstrucción de objetos 3D en programas editables es fundamental para aplicaciones como la ingeniería inversa y la edición de formas. Sin embargo, los métodos existentes a menudo dependen de lenguajes específicos de dominio (DSL) limitados y conjuntos de datos de pequeña escala, lo que restringe su capacidad para modelar geometrías y estructuras complejas. Para abordar estos desafíos, presentamos MeshCoder, un marco novedoso que reconstruye objetos 3D complejos a partir de nubes de puntos en scripts editables de Python para Blender. Desarrollamos un conjunto completo de APIs expresivas en Python para Blender, capaces de sintetizar geometrías intrincadas. Aprovechando estas APIs, construimos un conjunto de datos a gran escala de objetos emparejados con su código, donde el código de cada objeto se descompone en partes semánticas distintas. Posteriormente, entrenamos un modelo de lenguaje multimodal de gran escala (LLM) que traduce nubes de puntos 3D en scripts ejecutables de Python para Blender. Nuestro enfoque no solo logra un rendimiento superior en tareas de reconstrucción de forma a código, sino que también facilita la edición intuitiva de geometrías y topologías mediante modificaciones convenientes del código. Además, nuestra representación basada en código mejora las capacidades de razonamiento de los LLM en tareas de comprensión de formas 3D. En conjunto, estas contribuciones establecen a MeshCoder como una solución poderosa y flexible para la reconstrucción y comprensión programática de formas 3D.

English

Reconstructing 3D objects into editable programs is pivotal for applications like reverse engineering and shape editing. However, existing methods often rely on limited domain-specific languages (DSLs) and small-scale datasets, restricting their ability to model complex geometries and structures. To address these challenges, we introduce MeshCoder, a novel framework that reconstructs complex 3D objects from point clouds into editable Blender Python scripts. We develop a comprehensive set of expressive Blender Python APIs capable of synthesizing intricate geometries. Leveraging these APIs, we construct a large-scale paired object-code dataset, where the code for each object is decomposed into distinct semantic parts. Subsequently, we train a multimodal large language model (LLM) that translates 3D point cloud into executable Blender Python scripts. Our approach not only achieves superior performance in shape-to-code reconstruction tasks but also facilitates intuitive geometric and topological editing through convenient code modifications. Furthermore, our code-based representation enhances the reasoning capabilities of LLMs in 3D shape understanding tasks. Together, these contributions establish MeshCoder as a powerful and flexible solution for programmatic 3D shape reconstruction and understanding.