LLaMA-Mesh:言語モデルを用いた3Dメッシュ生成の統一
LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models
November 14, 2024
著者: Zhengyi Wang, Jonathan Lorraine, Yikai Wang, Hang Su, Jun Zhu, Sanja Fidler, Xiaohui Zeng
cs.AI
要旨
本研究は、テキストで事前学習された大規模言語モデル(LLMs)の機能を拡張し、統合モデル内で3Dメッシュを生成する可能性を探るものである。これにより、LLMsにすでに埋め込まれた空間知識(3Dチュートリアルなどのテキストソースから派生)を活用する利点があり、また、会話形式の3D生成とメッシュ理解を可能にする。主な課題は、3DメッシュデータをLLMsがシームレスに処理できる離散トークンに効果的にトークン化することである。この課題に対処するために、私たちはLLaMA-Meshという新しいアプローチを導入し、3Dメッシュの頂点座標と面の定義をプレーンテキストとして表現し、語彙を拡張せずにLLMsと直接統合できるようにした。事前学習されたLLMsが(1)テキストプロンプトから3Dメッシュを生成し、(2)必要に応じて交互にテキストと3Dメッシュの出力を生成し、(3)3Dメッシュを理解し解釈するための教師ありファインチューニング(SFT)データセットを構築した。本研究は、LLMsをファインチューニングして、テキストベースの形式で3Dメッシュ生成のための複雑な空間知識を獲得できることを初めて示したものであり、効果的に3Dとテキストのモダリティを統合している。LLaMA-Meshは、ゼロからトレーニングされたモデルと同等のメッシュ生成品質を達成しつつ、強力なテキスト生成パフォーマンスを維持している。
English
This work explores expanding the capabilities of large language models (LLMs)
pretrained on text to generate 3D meshes within a unified model. This offers
key advantages of (1) leveraging spatial knowledge already embedded in LLMs,
derived from textual sources like 3D tutorials, and (2) enabling conversational
3D generation and mesh understanding. A primary challenge is effectively
tokenizing 3D mesh data into discrete tokens that LLMs can process seamlessly.
To address this, we introduce LLaMA-Mesh, a novel approach that represents the
vertex coordinates and face definitions of 3D meshes as plain text, allowing
direct integration with LLMs without expanding the vocabulary. We construct a
supervised fine-tuning (SFT) dataset enabling pretrained LLMs to (1) generate
3D meshes from text prompts, (2) produce interleaved text and 3D mesh outputs
as required, and (3) understand and interpret 3D meshes. Our work is the first
to demonstrate that LLMs can be fine-tuned to acquire complex spatial knowledge
for 3D mesh generation in a text-based format, effectively unifying the 3D and
text modalities. LLaMA-Mesh achieves mesh generation quality on par with models
trained from scratch while maintaining strong text generation performance.Summary
AI-Generated Summary