LLaMA-Mesh: Unificando a Geração de Malhas 3D com Modelos de Linguagem
LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models
November 14, 2024
Autores: Zhengyi Wang, Jonathan Lorraine, Yikai Wang, Hang Su, Jun Zhu, Sanja Fidler, Xiaohui Zeng
cs.AI
Resumo
Este trabalho explora a expansão das capacidades de grandes modelos de linguagem (LLMs) pré-treinados em texto para gerar malhas 3D dentro de um modelo unificado. Isso oferece vantagens-chave de (1) alavancar o conhecimento espacial já incorporado nos LLMs, derivado de fontes textuais como tutoriais 3D, e (2) possibilitar a geração conversacional 3D e compreensão de malhas. Um desafio principal é tokenizar efetivamente os dados de malha 3D em tokens discretos que os LLMs possam processar de forma contínua. Para lidar com isso, introduzimos o LLaMA-Mesh, uma abordagem inovadora que representa as coordenadas dos vértices e as definições das faces das malhas 3D como texto simples, permitindo a integração direta com os LLMs sem expandir o vocabulário. Construímos um conjunto de dados de ajuste fino supervisionado (SFT) que permite aos LLMs pré-treinados (1) gerar malhas 3D a partir de prompts de texto, (2) produzir saídas de texto e malha 3D entrelaçadas conforme necessário e (3) entender e interpretar malhas 3D. Nosso trabalho é o primeiro a demonstrar que os LLMs podem ser ajustados finamente para adquirir conhecimento espacial complexo para geração de malhas 3D em um formato baseado em texto, unificando efetivamente as modalidades 3D e texto. O LLaMA-Mesh alcança qualidade de geração de malha em pé de igualdade com modelos treinados do zero, mantendo um desempenho sólido na geração de texto.
English
This work explores expanding the capabilities of large language models (LLMs)
pretrained on text to generate 3D meshes within a unified model. This offers
key advantages of (1) leveraging spatial knowledge already embedded in LLMs,
derived from textual sources like 3D tutorials, and (2) enabling conversational
3D generation and mesh understanding. A primary challenge is effectively
tokenizing 3D mesh data into discrete tokens that LLMs can process seamlessly.
To address this, we introduce LLaMA-Mesh, a novel approach that represents the
vertex coordinates and face definitions of 3D meshes as plain text, allowing
direct integration with LLMs without expanding the vocabulary. We construct a
supervised fine-tuning (SFT) dataset enabling pretrained LLMs to (1) generate
3D meshes from text prompts, (2) produce interleaved text and 3D mesh outputs
as required, and (3) understand and interpret 3D meshes. Our work is the first
to demonstrate that LLMs can be fine-tuned to acquire complex spatial knowledge
for 3D mesh generation in a text-based format, effectively unifying the 3D and
text modalities. LLaMA-Mesh achieves mesh generation quality on par with models
trained from scratch while maintaining strong text generation performance.Summary
AI-Generated Summary