ChatPaper.aiChatPaper

MeshLLM: Potenziare i Modelli Linguistici di Grande Scala per Comprendere e Generare Progressivamente Mesh 3D

MeshLLM: Empowering Large Language Models to Progressively Understand and Generate 3D Mesh

August 2, 2025
Autori: Shuangkang Fang, I-Chao Shen, Yufeng Wang, Yi-Hsuan Tsai, Yi Yang, Shuchang Zhou, Wenrui Ding, Takeo Igarashi, Ming-Hsuan Yang
cs.AI

Abstract

Presentiamo MeshLLM, un framework innovativo che sfrutta i grandi modelli linguistici (LLM) per comprendere e generare mesh 3D serializzate in testo. Il nostro approccio affronta le principali limitazioni dei metodi esistenti, tra cui la scala limitata dei dataset quando si adattano alla lunghezza dei token degli LLM e la perdita di informazioni strutturali 3D durante la serializzazione delle mesh. Introduciamo una strategia di decomposizione Primitive-Mesh, che divide le mesh 3D in sottounità strutturalmente significative. Ciò consente la creazione di un dataset su larga scala con oltre 1500k campioni, quasi 50 volte più grande rispetto ai metodi precedenti, allineandosi meglio ai principi della legge di scala degli LLM. Inoltre, proponiamo di inferire la connettività delle facce dai vertici e strategie di addestramento per l'assemblaggio locale delle mesh, migliorando significativamente la capacità degli LLM di catturare la topologia delle mesh e le strutture spaziali. Gli esperimenti dimostrano che MeshLLM supera lo stato dell'arte di LLaMA-Mesh sia nella qualità della generazione delle mesh che nella comprensione delle forme, evidenziando il suo grande potenziale nell'elaborazione di mesh 3D serializzate in testo.
English
We present MeshLLM, a novel framework that leverages large language models (LLMs) to understand and generate text-serialized 3D meshes. Our approach addresses key limitations in existing methods, including the limited dataset scale when catering to LLMs' token length and the loss of 3D structural information during mesh serialization. We introduce a Primitive-Mesh decomposition strategy, which divides 3D meshes into structurally meaningful subunits. This enables the creation of a large-scale dataset with 1500k+ samples, almost 50 times larger than previous methods, which aligns better with the LLM scaling law principles. Furthermore, we propose inferring face connectivity from vertices and local mesh assembly training strategies, significantly enhancing the LLMs' ability to capture mesh topology and spatial structures. Experiments show that MeshLLM outperforms the state-of-the-art LLaMA-Mesh in both mesh generation quality and shape understanding, highlighting its great potential in processing text-serialized 3D meshes.
PDF93August 11, 2025