MeshCoder: Generación de Código de Mallas Estructuradas Basada en LLM a partir de Nubes de Puntos
MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds
August 20, 2025
Autores: Bingquan Dai, Li Ray Luo, Qihong Tang, Jie Wang, Xinyu Lian, Hao Xu, Minghan Qin, Xudong Xu, Bo Dai, Haoqian Wang, Zhaoyang Lyu, Jiangmiao Pang
cs.AI
Resumen
La reconstrucción de objetos 3D en programas editables es fundamental para aplicaciones como la ingeniería inversa y la edición de formas. Sin embargo, los métodos existentes a menudo dependen de lenguajes específicos de dominio (DSL) limitados y conjuntos de datos de pequeña escala, lo que restringe su capacidad para modelar geometrías y estructuras complejas. Para abordar estos desafíos, presentamos MeshCoder, un marco novedoso que reconstruye objetos 3D complejos a partir de nubes de puntos en scripts editables de Python para Blender. Desarrollamos un conjunto completo de APIs expresivas en Python para Blender, capaces de sintetizar geometrías intrincadas. Aprovechando estas APIs, construimos un conjunto de datos a gran escala de objetos emparejados con su código, donde el código de cada objeto se descompone en partes semánticas distintas. Posteriormente, entrenamos un modelo de lenguaje multimodal de gran escala (LLM) que traduce nubes de puntos 3D en scripts ejecutables de Python para Blender. Nuestro enfoque no solo logra un rendimiento superior en tareas de reconstrucción de forma a código, sino que también facilita la edición intuitiva de geometrías y topologías mediante modificaciones convenientes del código. Además, nuestra representación basada en código mejora las capacidades de razonamiento de los LLM en tareas de comprensión de formas 3D. En conjunto, estas contribuciones establecen a MeshCoder como una solución poderosa y flexible para la reconstrucción y comprensión programática de formas 3D.
English
Reconstructing 3D objects into editable programs is pivotal for applications
like reverse engineering and shape editing. However, existing methods often
rely on limited domain-specific languages (DSLs) and small-scale datasets,
restricting their ability to model complex geometries and structures. To
address these challenges, we introduce MeshCoder, a novel framework that
reconstructs complex 3D objects from point clouds into editable Blender Python
scripts. We develop a comprehensive set of expressive Blender Python APIs
capable of synthesizing intricate geometries. Leveraging these APIs, we
construct a large-scale paired object-code dataset, where the code for each
object is decomposed into distinct semantic parts. Subsequently, we train a
multimodal large language model (LLM) that translates 3D point cloud into
executable Blender Python scripts. Our approach not only achieves superior
performance in shape-to-code reconstruction tasks but also facilitates
intuitive geometric and topological editing through convenient code
modifications. Furthermore, our code-based representation enhances the
reasoning capabilities of LLMs in 3D shape understanding tasks. Together, these
contributions establish MeshCoder as a powerful and flexible solution for
programmatic 3D shape reconstruction and understanding.