ChatPaper.aiChatPaper

GaussianGPT: Rumo à Geração Autoregressiva de Cenas com Gaussianas 3D

GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation

March 27, 2026
Autores: Nicolas von Lützow, Barbara Rössle, Katharina Schmid, Matthias Nießner
cs.AI

Resumo

Os avanços mais recentes na modelagem generativa 3D dependem de formulações baseadas em difusão ou *flow-matching*. Nós, em vez disso, exploramos uma alternativa totalmente autoregressiva e introduzimos o GaussianGPT, um modelo baseado em *transformer* que gera diretamente Gaussianas 3D via previsão do próximo *token*, facilitando assim a geração completa de cenas 3D. Primeiro, comprimimos as primitivas Gaussianas numa grelha latente discreta usando um autoencoder convolucional 3D esparso com quantização vetorial. Os *tokens* resultantes são serializados e modelados usando um *transformer* causal com incorporação posicional rotacional 3D, permitindo a geração sequencial da estrutura espacial e da aparência. Diferente dos métodos baseados em difusão que refinam cenas holisticamente, a nossa formulação constrói cenas passo a passo, suportando naturalmente tarefas como conclusão, extrapolação, amostragem controlável via temperatura e horizontes de geração flexíveis. Esta formulação aproveita os vieses indutivos composicionais e a escalabilidade da modelagem autoregressiva, enquanto opera em representações explícitas compatíveis com os *pipelines* modernos de renderização neural, posicionando os *transformers* autoregressivos como um paradigma complementar para a geração 3D controlável e consciente do contexto.
English
Most recent advances in 3D generative modeling rely on diffusion or flow-matching formulations. We instead explore a fully autoregressive alternative and introduce GaussianGPT, a transformer-based model that directly generates 3D Gaussians via next-token prediction, thus facilitating full 3D scene generation. We first compress Gaussian primitives into a discrete latent grid using a sparse 3D convolutional autoencoder with vector quantization. The resulting tokens are serialized and modeled using a causal transformer with 3D rotary positional embedding, enabling sequential generation of spatial structure and appearance. Unlike diffusion-based methods that refine scenes holistically, our formulation constructs scenes step-by-step, naturally supporting completion, outpainting, controllable sampling via temperature, and flexible generation horizons. This formulation leverages the compositional inductive biases and scalability of autoregressive modeling while operating on explicit representations compatible with modern neural rendering pipelines, positioning autoregressive transformers as a complementary paradigm for controllable and context-aware 3D generation.
PDF100April 3, 2026