SAR3D:多スケール3D VQVAEを介した自己回帰型3Dオブジェクト生成と理解
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE
November 25, 2024
著者: Yongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan
cs.AI
要旨
自己回帰モデルは、大規模言語モデル(LLMs)、大規模マルチモーダルモデル(LMMs)、および2Dコンテンツ生成など、さまざまな分野で顕著な成功を収めており、人工汎用知能(AGI)に近づいています。これらの進展にもかかわらず、自己回帰アプローチを3Dオブジェクト生成および理解に適用することはほとんど未開拓です。本論文では、3Dオブジェクトを効率的に自己回帰生成および詳細な理解のためにトークン化する新しいフレームワークであるScale AutoRegressive 3D(SAR3D)を紹介します。SAR3Dは、マルチスケール3Dベクトル量子化変分オートエンコーダ(VQVAE)を活用し、次のスケールを単一トークンではなくマルチスケール潜在表現で予測することで、生成時間を大幅に短縮し、A6000 GPU上でわずか0.82秒で高速な3Dオブジェクト生成を実現します。さらに、階層的な3D認識情報で豊かになったトークンを用いて、事前学習済みLLMを微調整することで、3Dコンテンツのマルチモーダル理解を可能にします。実験の結果、SAR3Dは速度と品質の両面で現行の3D生成手法を凌駕し、LLMsが包括的に3Dモデルを解釈およびキャプション付けできるようにします。
English
Autoregressive models have demonstrated remarkable success across various
fields, from large language models (LLMs) to large multimodal models (LMMs) and
2D content generation, moving closer to artificial general intelligence (AGI).
Despite these advances, applying autoregressive approaches to 3D object
generation and understanding remains largely unexplored. This paper introduces
Scale AutoRegressive 3D (SAR3D), a novel framework that leverages a multi-scale
3D vector-quantized variational autoencoder (VQVAE) to tokenize 3D objects for
efficient autoregressive generation and detailed understanding. By predicting
the next scale in a multi-scale latent representation instead of the next
single token, SAR3D reduces generation time significantly, achieving fast 3D
object generation in just 0.82 seconds on an A6000 GPU. Additionally, given the
tokens enriched with hierarchical 3D-aware information, we finetune a
pretrained LLM on them, enabling multimodal comprehension of 3D content. Our
experiments show that SAR3D surpasses current 3D generation methods in both
speed and quality and allows LLMs to interpret and caption 3D models
comprehensively.Summary
AI-Generated Summary