ChatPaper.aiChatPaper

GaussianGPT: Verso la generazione autoregressiva di scene con Gaussiane 3D

GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation

March 27, 2026
Autori: Nicolas von Lützow, Barbara Rössle, Katharina Schmid, Matthias Nießner
cs.AI

Abstract

I progressi più recenti nella modellazione generativa 3D si basano su formulazioni di diffusione o flow-matching. Noi esploriamo invece un'alternativa completamente autoregressiva e introduciamo GaussianGPT, un modello basato su transformer che genera direttamente Gaussiane 3D tramite la previsione del token successivo, facilitando così la generazione completa di scene 3D. Inizialmente comprimiamo le primitive gaussiane in una griglia latente discreta utilizzando un autoencoder convoluzionale 3D sparso con quantizzazione vettoriale. I token risultanti vengono serializzati e modellati utilizzando un transformer causale con incorporamento posizionale rotazionale 3D, abilitando la generazione sequenziale della struttura spaziale e dell'aspetto. A differenza dei metodi basati sulla diffusione che perfezionano le scene in modo olistico, la nostra formulazione costruisce le scene passo dopo passo, supportando naturalmente il completamento, l'outpainting, il campionamento controllabile tramite temperatura e orizzonti di generazione flessibili. Questa formulazione sfrutta i bias induttivi composizionali e la scalabilità della modellazione autoregressiva, operando su rappresentazioni esplicite compatibili con le moderne pipeline di rendering neurale, posizionando i transformer autoregressivi come un paradigma complementare per la generazione 3D controllabile e consapevole del contesto.
English
Most recent advances in 3D generative modeling rely on diffusion or flow-matching formulations. We instead explore a fully autoregressive alternative and introduce GaussianGPT, a transformer-based model that directly generates 3D Gaussians via next-token prediction, thus facilitating full 3D scene generation. We first compress Gaussian primitives into a discrete latent grid using a sparse 3D convolutional autoencoder with vector quantization. The resulting tokens are serialized and modeled using a causal transformer with 3D rotary positional embedding, enabling sequential generation of spatial structure and appearance. Unlike diffusion-based methods that refine scenes holistically, our formulation constructs scenes step-by-step, naturally supporting completion, outpainting, controllable sampling via temperature, and flexible generation horizons. This formulation leverages the compositional inductive biases and scalability of autoregressive modeling while operating on explicit representations compatible with modern neural rendering pipelines, positioning autoregressive transformers as a complementary paradigm for controllable and context-aware 3D generation.
PDF100April 3, 2026