SAR3D : Génération et compréhension autoregressive d'objets 3D via un VQVAE 3D multi-échelle
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE
November 25, 2024
Auteurs: Yongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan
cs.AI
Résumé
Les modèles autorégressifs ont démontré un succès remarquable dans divers domaines, des grands modèles de langage (LLM) aux grands modèles multimodaux (LMM) et à la génération de contenu 2D, se rapprochant ainsi de l'intelligence artificielle générale (AGI). Malgré ces avancées, l'application des approches autorégressives à la génération et à la compréhension d'objets 3D reste largement inexplorée. Cet article présente Scale AutoRegressive 3D (SAR3D), un nouveau cadre qui exploite un autoencodeur variationnel vectorisé 3D à échelle multiple (VQVAE) pour tokeniser les objets 3D en vue d'une génération autorégressive efficace et d'une compréhension détaillée. En prédisant l'échelle suivante dans une représentation latente à échelle multiple au lieu du jeton suivant unique, SAR3D réduit significativement le temps de génération, réalisant une génération rapide d'objets 3D en seulement 0,82 seconde sur un GPU A6000. De plus, étant donné les jetons enrichis d'informations hiérarchiques 3D, nous affinons un LLM pré-entraîné sur ceux-ci, permettant une compréhension multimodale du contenu 3D. Nos expériences montrent que SAR3D surpasse les méthodes actuelles de génération 3D à la fois en termes de vitesse et de qualité, et permet aux LLM d'interpréter et de légender de manière exhaustive les modèles 3D.
English
Autoregressive models have demonstrated remarkable success across various
fields, from large language models (LLMs) to large multimodal models (LMMs) and
2D content generation, moving closer to artificial general intelligence (AGI).
Despite these advances, applying autoregressive approaches to 3D object
generation and understanding remains largely unexplored. This paper introduces
Scale AutoRegressive 3D (SAR3D), a novel framework that leverages a multi-scale
3D vector-quantized variational autoencoder (VQVAE) to tokenize 3D objects for
efficient autoregressive generation and detailed understanding. By predicting
the next scale in a multi-scale latent representation instead of the next
single token, SAR3D reduces generation time significantly, achieving fast 3D
object generation in just 0.82 seconds on an A6000 GPU. Additionally, given the
tokens enriched with hierarchical 3D-aware information, we finetune a
pretrained LLM on them, enabling multimodal comprehension of 3D content. Our
experiments show that SAR3D surpasses current 3D generation methods in both
speed and quality and allows LLMs to interpret and caption 3D models
comprehensively.Summary
AI-Generated Summary