ChatPaper.aiChatPaper

SAR3D: Autoregressieve 3D-objectgeneratie en -begrip via Multi-scale 3D VQVAE

SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

November 25, 2024
Auteurs: Yongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan
cs.AI

Samenvatting

Autoregressieve modellen hebben opmerkelijk succes aangetoond in verschillende vakgebieden, van grote taalmodellen (LLM's) tot grote multimodale modellen (LMM's) en 2D-inhoudsgeneratie, waardoor ze dichter bij kunstmatige algemene intelligentie (AGI) komen. Ondanks deze vooruitgang blijft het toepassen van autoregressieve benaderingen op 3D-objectgeneratie en -begrip grotendeels onontgonnen. Dit artikel introduceert Scale AutoRegressive 3D (SAR3D), een nieuw raamwerk dat gebruikmaakt van een multi-schaal 3D vector-gekwantiseerde variational auto-encoder (VQVAE) om 3D-objecten te tokeniseren voor efficiënte autoregressieve generatie en gedetailleerd begrip. Door de volgende schaal in een multi-schaal latente representatie te voorspellen in plaats van het volgende enkele token, vermindert SAR3D de generatietijd aanzienlijk, met snelle 3D-objectgeneratie in slechts 0,82 seconden op een A6000 GPU. Bovendien, gezien de tokens verrijkt met hiërarchische 3D-bewuste informatie, fijnafstemmen we een voorgeleerd LLM erop, waardoor multimodaal begrip van 3D-inhoud mogelijk is. Onze experimenten tonen aan dat SAR3D huidige 3D-generatiemethoden overtreft in zowel snelheid als kwaliteit en LLM's in staat stelt 3D-modellen uitgebreid te interpreteren en te onderschrijven.
English
Autoregressive models have demonstrated remarkable success across various fields, from large language models (LLMs) to large multimodal models (LMMs) and 2D content generation, moving closer to artificial general intelligence (AGI). Despite these advances, applying autoregressive approaches to 3D object generation and understanding remains largely unexplored. This paper introduces Scale AutoRegressive 3D (SAR3D), a novel framework that leverages a multi-scale 3D vector-quantized variational autoencoder (VQVAE) to tokenize 3D objects for efficient autoregressive generation and detailed understanding. By predicting the next scale in a multi-scale latent representation instead of the next single token, SAR3D reduces generation time significantly, achieving fast 3D object generation in just 0.82 seconds on an A6000 GPU. Additionally, given the tokens enriched with hierarchical 3D-aware information, we finetune a pretrained LLM on them, enabling multimodal comprehension of 3D content. Our experiments show that SAR3D surpasses current 3D generation methods in both speed and quality and allows LLMs to interpret and caption 3D models comprehensively.

Summary

AI-Generated Summary

PDF132November 27, 2024