ChatPaper.aiChatPaper

MeshLLM : Permettre aux grands modèles de langage de comprendre et de générer progressivement des maillages 3D

MeshLLM: Empowering Large Language Models to Progressively Understand and Generate 3D Mesh

August 2, 2025
papers.authors: Shuangkang Fang, I-Chao Shen, Yufeng Wang, Yi-Hsuan Tsai, Yi Yang, Shuchang Zhou, Wenrui Ding, Takeo Igarashi, Ming-Hsuan Yang
cs.AI

papers.abstract

Nous présentons MeshLLM, un nouveau cadre qui exploite les grands modèles de langage (LLM) pour comprendre et générer des maillages 3D sérialisés en texte. Notre approche résout les limitations clés des méthodes existantes, notamment l'échelle limitée des jeux de données adaptés à la longueur des tokens des LLM et la perte d'information structurelle 3D lors de la sérialisation des maillages. Nous introduisons une stratégie de décomposition Primitive-Mesh, qui divise les maillages 3D en sous-unités structurellement significatives. Cela permet la création d'un jeu de données à grande échelle avec plus de 1500k échantillons, soit près de 50 fois plus que les méthodes précédentes, ce qui s'aligne mieux sur les principes de la loi d'échelle des LLM. De plus, nous proposons d'inférer la connectivité des faces à partir des sommets et des stratégies d'entraînement pour l'assemblage local des maillages, améliorant ainsi significativement la capacité des LLM à capturer la topologie des maillages et les structures spatiales. Les expériences montrent que MeshLLM surpasse l'état de l'art LLaMA-Mesh à la fois en qualité de génération de maillages et en compréhension des formes, mettant en évidence son grand potentiel dans le traitement des maillages 3D sérialisés en texte.
English
We present MeshLLM, a novel framework that leverages large language models (LLMs) to understand and generate text-serialized 3D meshes. Our approach addresses key limitations in existing methods, including the limited dataset scale when catering to LLMs' token length and the loss of 3D structural information during mesh serialization. We introduce a Primitive-Mesh decomposition strategy, which divides 3D meshes into structurally meaningful subunits. This enables the creation of a large-scale dataset with 1500k+ samples, almost 50 times larger than previous methods, which aligns better with the LLM scaling law principles. Furthermore, we propose inferring face connectivity from vertices and local mesh assembly training strategies, significantly enhancing the LLMs' ability to capture mesh topology and spatial structures. Experiments show that MeshLLM outperforms the state-of-the-art LLaMA-Mesh in both mesh generation quality and shape understanding, highlighting its great potential in processing text-serialized 3D meshes.
PDF73August 11, 2025