ChatPaper.aiChatPaper

GaussianGPT: Op weg naar autoregressieve 3D Gauss-scènegeneratie

GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation

March 27, 2026
Auteurs: Nicolas von Lützow, Barbara Rössle, Katharina Schmid, Matthias Nießner
cs.AI

Samenvatting

De meest recente vooruitgang in 3D-generatieve modellering berust op diffusie- of flow-matching-formuleringen. Wij onderzoeken in plaats daarvan een volledig autoregressief alternatief en introduceren GaussianGPT, een transformer-gebaseerd model dat direct 3D-gaussische verdelingen genereert via next-token-predictie, waardoor volledige 3D-scènegeneratie wordt gefaciliteerd. We comprimeren eerst gaussische primitieven in een discreet latent grid met behulp van een sparse 3D convolutioneel auto-encoder met vectorquantisatie. De resulterende tokens worden geserialiseerd en gemodelleerd met een causale transformer met 3D roterende positionele inbedding, wat sequentiële generatie van ruimtelijke structuur en uiterlijk mogelijk maakt. In tegenstelling tot diffusiegebaseerde methoden die scènes holistisch verfijnen, construeert onze formulering scènes stap-voor-stap, wat op natuurlijke wijze ondersteuning biedt voor voltooiing, uitbreiding (outpainting), controleerbare sampling via temperatuur en flexibele generatiehorizons. Deze formulering benut de compositionele inductieve vooroordelen en schaalbaarheid van autoregressieve modellering, terwijl wordt gewerkt met expliciete representaties die compatibel zijn met moderne neurale renderpipelines. Dit positioneert autoregressieve transformers als een complementair paradigma voor controleerbare en contextbewuste 3D-generatie.
English
Most recent advances in 3D generative modeling rely on diffusion or flow-matching formulations. We instead explore a fully autoregressive alternative and introduce GaussianGPT, a transformer-based model that directly generates 3D Gaussians via next-token prediction, thus facilitating full 3D scene generation. We first compress Gaussian primitives into a discrete latent grid using a sparse 3D convolutional autoencoder with vector quantization. The resulting tokens are serialized and modeled using a causal transformer with 3D rotary positional embedding, enabling sequential generation of spatial structure and appearance. Unlike diffusion-based methods that refine scenes holistically, our formulation constructs scenes step-by-step, naturally supporting completion, outpainting, controllable sampling via temperature, and flexible generation horizons. This formulation leverages the compositional inductive biases and scalability of autoregressive modeling while operating on explicit representations compatible with modern neural rendering pipelines, positioning autoregressive transformers as a complementary paradigm for controllable and context-aware 3D generation.
PDF100April 3, 2026