ChatPaper.aiChatPaper

MeshLLM: Расширение возможностей крупных языковых моделей для постепенного понимания и генерации 3D-мешей

MeshLLM: Empowering Large Language Models to Progressively Understand and Generate 3D Mesh

August 2, 2025
Авторы: Shuangkang Fang, I-Chao Shen, Yufeng Wang, Yi-Hsuan Tsai, Yi Yang, Shuchang Zhou, Wenrui Ding, Takeo Igarashi, Ming-Hsuan Yang
cs.AI

Аннотация

Мы представляем MeshLLM — инновационную структуру, которая использует большие языковые модели (LLM) для понимания и генерации текстово-сериализованных 3D-мешей. Наш подход решает ключевые ограничения существующих методов, включая ограниченный масштаб наборов данных при адаптации к длине токенов LLM и потерю структурной информации 3D-мешей в процессе сериализации. Мы вводим стратегию декомпозиции Primitive-Mesh, которая разделяет 3D-меши на структурно значимые подгруппы. Это позволяет создать крупномасштабный набор данных с более чем 1500 тыс. образцов, что почти в 50 раз превышает предыдущие методы и лучше соответствует принципам масштабирования LLM. Кроме того, мы предлагаем стратегии вывода связности граней из вершин и обучения локальной сборки мешей, что значительно улучшает способность LLM захватывать топологию мешей и пространственные структуры. Эксперименты показывают, что MeshLLM превосходит современную модель LLaMA-Mesh как в качестве генерации мешей, так и в понимании формы, подчеркивая его огромный потенциал в обработке текстово-сериализованных 3D-мешей.
English
We present MeshLLM, a novel framework that leverages large language models (LLMs) to understand and generate text-serialized 3D meshes. Our approach addresses key limitations in existing methods, including the limited dataset scale when catering to LLMs' token length and the loss of 3D structural information during mesh serialization. We introduce a Primitive-Mesh decomposition strategy, which divides 3D meshes into structurally meaningful subunits. This enables the creation of a large-scale dataset with 1500k+ samples, almost 50 times larger than previous methods, which aligns better with the LLM scaling law principles. Furthermore, we propose inferring face connectivity from vertices and local mesh assembly training strategies, significantly enhancing the LLMs' ability to capture mesh topology and spatial structures. Experiments show that MeshLLM outperforms the state-of-the-art LLaMA-Mesh in both mesh generation quality and shape understanding, highlighting its great potential in processing text-serialized 3D meshes.
PDF73August 11, 2025