SAR3D : Génération et compréhension autoregressive d'objets 3D via un VQVAE 3D multi-échelle

papers.abstract

Les modèles autorégressifs ont démontré un succès remarquable dans divers domaines, des grands modèles de langage (LLM) aux grands modèles multimodaux (LMM) et à la génération de contenu 2D, se rapprochant ainsi de l'intelligence artificielle générale (AGI). Malgré ces avancées, l'application des approches autorégressives à la génération et à la compréhension d'objets 3D reste largement inexplorée. Cet article présente Scale AutoRegressive 3D (SAR3D), un nouveau cadre qui exploite un autoencodeur variationnel vectorisé 3D à échelle multiple (VQVAE) pour tokeniser les objets 3D en vue d'une génération autorégressive efficace et d'une compréhension détaillée. En prédisant l'échelle suivante dans une représentation latente à échelle multiple au lieu du jeton suivant unique, SAR3D réduit significativement le temps de génération, réalisant une génération rapide d'objets 3D en seulement 0,82 seconde sur un GPU A6000. De plus, étant donné les jetons enrichis d'informations hiérarchiques 3D, nous affinons un LLM pré-entraîné sur ceux-ci, permettant une compréhension multimodale du contenu 3D. Nos expériences montrent que SAR3D surpasse les méthodes actuelles de génération 3D à la fois en termes de vitesse et de qualité, et permet aux LLM d'interpréter et de légender de manière exhaustive les modèles 3D.

English

Autoregressive models have demonstrated remarkable success across various fields, from large language models (LLMs) to large multimodal models (LMMs) and 2D content generation, moving closer to artificial general intelligence (AGI). Despite these advances, applying autoregressive approaches to 3D object generation and understanding remains largely unexplored. This paper introduces Scale AutoRegressive 3D (SAR3D), a novel framework that leverages a multi-scale 3D vector-quantized variational autoencoder (VQVAE) to tokenize 3D objects for efficient autoregressive generation and detailed understanding. By predicting the next scale in a multi-scale latent representation instead of the next single token, SAR3D reduces generation time significantly, achieving fast 3D object generation in just 0.82 seconds on an A6000 GPU. Additionally, given the tokens enriched with hierarchical 3D-aware information, we finetune a pretrained LLM on them, enabling multimodal comprehension of 3D content. Our experiments show that SAR3D surpasses current 3D generation methods in both speed and quality and allows LLMs to interpret and caption 3D models comprehensively.

SAR3D : Génération et compréhension autoregressive d'objets 3D via un VQVAE 3D multi-échelle

SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

papers.abstract

Support