ChatPaper.aiChatPaper

MeshLLM: Potenciando a los Modelos de Lenguaje de Gran Escala para Comprender y Generar Mallas 3D de Manera Progresiva

MeshLLM: Empowering Large Language Models to Progressively Understand and Generate 3D Mesh

August 2, 2025
Autores: Shuangkang Fang, I-Chao Shen, Yufeng Wang, Yi-Hsuan Tsai, Yi Yang, Shuchang Zhou, Wenrui Ding, Takeo Igarashi, Ming-Hsuan Yang
cs.AI

Resumen

Presentamos MeshLLM, un marco novedoso que aprovecha los modelos de lenguaje de gran escala (LLMs) para comprender y generar mallas 3D serializadas en texto. Nuestro enfoque aborda limitaciones clave en los métodos existentes, incluyendo la escala reducida de los conjuntos de datos al adaptarse a la longitud de tokens de los LLMs y la pérdida de información estructural 3D durante la serialización de mallas. Introducimos una estrategia de descomposición Primitive-Mesh, que divide las mallas 3D en subunidades estructuralmente significativas. Esto permite la creación de un conjunto de datos a gran escala con más de 1500k muestras, casi 50 veces mayor que los métodos anteriores, lo que se alinea mejor con los principios de la ley de escalamiento de los LLMs. Además, proponemos inferir la conectividad de caras a partir de vértices y estrategias de entrenamiento de ensamblaje local de mallas, mejorando significativamente la capacidad de los LLMs para capturar la topología de mallas y las estructuras espaciales. Los experimentos muestran que MeshLLM supera al estado del arte LLaMA-Mesh tanto en la calidad de generación de mallas como en la comprensión de formas, destacando su gran potencial en el procesamiento de mallas 3D serializadas en texto.
English
We present MeshLLM, a novel framework that leverages large language models (LLMs) to understand and generate text-serialized 3D meshes. Our approach addresses key limitations in existing methods, including the limited dataset scale when catering to LLMs' token length and the loss of 3D structural information during mesh serialization. We introduce a Primitive-Mesh decomposition strategy, which divides 3D meshes into structurally meaningful subunits. This enables the creation of a large-scale dataset with 1500k+ samples, almost 50 times larger than previous methods, which aligns better with the LLM scaling law principles. Furthermore, we propose inferring face connectivity from vertices and local mesh assembly training strategies, significantly enhancing the LLMs' ability to capture mesh topology and spatial structures. Experiments show that MeshLLM outperforms the state-of-the-art LLaMA-Mesh in both mesh generation quality and shape understanding, highlighting its great potential in processing text-serialized 3D meshes.
PDF73August 11, 2025