ChatPaper.aiChatPaper

SAR3D: Autoregressive 3D-Objektgenerierung und -verständnis mittels Multiskalen-3D-VQVAE

SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

November 25, 2024
Autoren: Yongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan
cs.AI

Zusammenfassung

Autoregressive Modelle haben bemerkenswerten Erfolg in verschiedenen Bereichen gezeigt, von großen Sprachmodellen (LLMs) über große multimodale Modelle (LMMs) bis hin zur Generierung von 2D-Inhalten und damit näher an der künstlichen allgemeinen Intelligenz (AGI). Trotz dieser Fortschritte bleibt die Anwendung von autoregressiven Ansätzen auf die Generierung und das Verständnis von 3D-Objekten weitgehend unerforscht. Dieses Papier stellt Scale AutoRegressive 3D (SAR3D) vor, ein neuartiges Framework, das einen mehrskaligen 3D vektor-quantisierten Variationalen Autoencoder (VQVAE) nutzt, um 3D-Objekte zur effizienten autoregressiven Generierung und detaillierten Verständnis zu tokenisieren. Indem SAR3D die Vorhersage der nächsten Skala in einer mehrskaligen latenten Repräsentation anstelle des nächsten einzelnen Tokens trifft, reduziert es die Generierungszeit signifikant und erreicht eine schnelle 3D-Objektgenerierung in nur 0,82 Sekunden auf einer A6000 GPU. Darüber hinaus, da die Tokens mit hierarchischen 3D-spezifischen Informationen angereichert sind, feinabstimmen wir ein vorab trainiertes LLM darauf, was eine multimodale Erfassung von 3D-Inhalten ermöglicht. Unsere Experimente zeigen, dass SAR3D aktuelle 3D-Generierungsmethoden sowohl in Geschwindigkeit als auch in Qualität übertrifft und LLMs umfassend befähigt, 3D-Modelle zu interpretieren und zu beschreiben.
English
Autoregressive models have demonstrated remarkable success across various fields, from large language models (LLMs) to large multimodal models (LMMs) and 2D content generation, moving closer to artificial general intelligence (AGI). Despite these advances, applying autoregressive approaches to 3D object generation and understanding remains largely unexplored. This paper introduces Scale AutoRegressive 3D (SAR3D), a novel framework that leverages a multi-scale 3D vector-quantized variational autoencoder (VQVAE) to tokenize 3D objects for efficient autoregressive generation and detailed understanding. By predicting the next scale in a multi-scale latent representation instead of the next single token, SAR3D reduces generation time significantly, achieving fast 3D object generation in just 0.82 seconds on an A6000 GPU. Additionally, given the tokens enriched with hierarchical 3D-aware information, we finetune a pretrained LLM on them, enabling multimodal comprehension of 3D content. Our experiments show that SAR3D surpasses current 3D generation methods in both speed and quality and allows LLMs to interpret and caption 3D models comprehensively.

Summary

AI-Generated Summary

PDF132November 27, 2024