GaussianGPT: Hacia la Generación Autoregresiva de Escenas con Gaussianos 3D
GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation
March 27, 2026
Autores: Nicolas von Lützow, Barbara Rössle, Katharina Schmid, Matthias Nießner
cs.AI
Resumen
Los avances más recientes en modelado generativo 3D se basan en formulaciones de difusión o *flow-matching*. En su lugar, nosotros exploramos una alternativa completamente autoregresiva e introducimos GaussianGPT, un modelo basado en transformadores que genera directamente Gaussianos 3D mediante predicción del siguiente token, facilitando así la generación completa de escenas 3D. Primero comprimimos los primitivos Gaussianos en una cuadrícula latente discreta utilizando un autoencoder convolucional 3D disperso con cuantización vectorial. Los tokens resultantes se serializan y se modelan utilizando un transformador causal con *embedding* posicional rotatorio 3D, lo que permite la generación secuencial de la estructura espacial y la apariencia. A diferencia de los métodos basados en difusión que refinan las escenas de manera holística, nuestra formulación construye las escenas paso a paso, admitiendo de forma natural la finalización (*completion*), la extensión (*outpainting*), el muestreo controlable mediante temperatura y horizontes de generación flexibles. Esta formulación aprovecha los sesgos inductivos composicionales y la escalabilidad del modelado autoregresivo, mientras opera sobre representaciones explícitas compatibles con los modernos flujos de renderizado neuronal, posicionando a los transformadores autoregresivos como un paradigma complementario para la generación 3D controlable y consciente del contexto.
English
Most recent advances in 3D generative modeling rely on diffusion or flow-matching formulations. We instead explore a fully autoregressive alternative and introduce GaussianGPT, a transformer-based model that directly generates 3D Gaussians via next-token prediction, thus facilitating full 3D scene generation. We first compress Gaussian primitives into a discrete latent grid using a sparse 3D convolutional autoencoder with vector quantization. The resulting tokens are serialized and modeled using a causal transformer with 3D rotary positional embedding, enabling sequential generation of spatial structure and appearance. Unlike diffusion-based methods that refine scenes holistically, our formulation constructs scenes step-by-step, naturally supporting completion, outpainting, controllable sampling via temperature, and flexible generation horizons. This formulation leverages the compositional inductive biases and scalability of autoregressive modeling while operating on explicit representations compatible with modern neural rendering pipelines, positioning autoregressive transformers as a complementary paradigm for controllable and context-aware 3D generation.