ChatPaper.aiChatPaper

GaussianGPT : Vers la génération autorégressive de scènes par Gaussiennes 3D

GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation

March 27, 2026
Auteurs: Nicolas von Lützow, Barbara Rössle, Katharina Schmid, Matthias Nießner
cs.AI

Résumé

Les progrès les plus récents en modélisation générative 3D reposent sur des formulations par diffusion ou par appariement de flux. Nous explorons plutôt une alternative entièrement autorégressive et présentons GaussianGPT, un modèle basé sur des transformateurs qui génère directement des Gaussiennes 3D via la prédiction du token suivant, facilitant ainsi la génération complète de scènes 3D. Nous compressons d'abord les primitives gaussiennes en une grille latente discrète à l'aide d'un autoencodeur convolutionnel 3D creux avec quantification vectorielle. Les tokens résultants sont sérialisés et modélisés à l'aide d'un transformateur causal avec un encodage positionnel rotatif 3D, permettant une génération séquentielle de la structure spatiale et de l'apparence. Contrairement aux méthodes basées sur la diffusion qui raffinent les scènes de manière holistique, notre formulation construit les scènes étape par étape, supportant naturellement la complétion, l'extension contextuelle, l'échantillonnage contrôlable via la température et des horizons de génération flexibles. Cette formulation tire parti des biais inductifs compositionnels et de l'évolutivité de la modélisation autorégressive tout en opérant sur des représentations explicites compatibles avec les pipelines de rendu neuronal modernes, positionnant les transformateurs autorégressifs comme un paradigme complémentaire pour la génération 3D contrôlable et sensible au contexte.
English
Most recent advances in 3D generative modeling rely on diffusion or flow-matching formulations. We instead explore a fully autoregressive alternative and introduce GaussianGPT, a transformer-based model that directly generates 3D Gaussians via next-token prediction, thus facilitating full 3D scene generation. We first compress Gaussian primitives into a discrete latent grid using a sparse 3D convolutional autoencoder with vector quantization. The resulting tokens are serialized and modeled using a causal transformer with 3D rotary positional embedding, enabling sequential generation of spatial structure and appearance. Unlike diffusion-based methods that refine scenes holistically, our formulation constructs scenes step-by-step, naturally supporting completion, outpainting, controllable sampling via temperature, and flexible generation horizons. This formulation leverages the compositional inductive biases and scalability of autoregressive modeling while operating on explicit representations compatible with modern neural rendering pipelines, positioning autoregressive transformers as a complementary paradigm for controllable and context-aware 3D generation.
PDF100April 3, 2026