ChatPaper.aiChatPaper

LLaMA-Mesh: Unificando la Generación de Mallas 3D con Modelos de Lenguaje

LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models

November 14, 2024
Autores: Zhengyi Wang, Jonathan Lorraine, Yikai Wang, Hang Su, Jun Zhu, Sanja Fidler, Xiaohui Zeng
cs.AI

Resumen

Este trabajo explora la expansión de las capacidades de grandes modelos de lenguaje (LLMs) preentrenados en texto para generar mallas 3D dentro de un modelo unificado. Esto ofrece ventajas clave de (1) aprovechar el conocimiento espacial ya integrado en los LLMs, derivado de fuentes textuales como tutoriales 3D, y (2) permitir la generación conversacional 3D y la comprensión de mallas. Un desafío principal es la tokenización efectiva de datos de mallas 3D en tokens discretos que los LLMs puedan procesar sin problemas. Para abordar esto, presentamos LLaMA-Mesh, un enfoque novedoso que representa las coordenadas de vértices y definiciones de caras de mallas 3D como texto plano, permitiendo la integración directa con LLMs sin expandir el vocabulario. Construimos un conjunto de datos de ajuste fino supervisado (SFT) que permite a los LLMs preentrenados (1) generar mallas 3D a partir de indicaciones de texto, (2) producir salidas de texto y mallas 3D entrelazadas según sea necesario, y (3) comprender e interpretar mallas 3D. Nuestro trabajo es el primero en demostrar que los LLMs pueden ajustarse finamente para adquirir conocimiento espacial complejo para la generación de mallas 3D en un formato basado en texto, unificando efectivamente las modalidades 3D y de texto. LLaMA-Mesh logra una calidad de generación de mallas comparable a la de modelos entrenados desde cero, manteniendo un sólido rendimiento en la generación de texto.
English
This work explores expanding the capabilities of large language models (LLMs) pretrained on text to generate 3D meshes within a unified model. This offers key advantages of (1) leveraging spatial knowledge already embedded in LLMs, derived from textual sources like 3D tutorials, and (2) enabling conversational 3D generation and mesh understanding. A primary challenge is effectively tokenizing 3D mesh data into discrete tokens that LLMs can process seamlessly. To address this, we introduce LLaMA-Mesh, a novel approach that represents the vertex coordinates and face definitions of 3D meshes as plain text, allowing direct integration with LLMs without expanding the vocabulary. We construct a supervised fine-tuning (SFT) dataset enabling pretrained LLMs to (1) generate 3D meshes from text prompts, (2) produce interleaved text and 3D mesh outputs as required, and (3) understand and interpret 3D meshes. Our work is the first to demonstrate that LLMs can be fine-tuned to acquire complex spatial knowledge for 3D mesh generation in a text-based format, effectively unifying the 3D and text modalities. LLaMA-Mesh achieves mesh generation quality on par with models trained from scratch while maintaining strong text generation performance.

Summary

AI-Generated Summary

PDF764November 15, 2024