ChatPaper.aiChatPaper

GaussianGPT: Auf dem Weg zur autoregressiven Erzeugung von 3D-Gauss-Szenen

GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation

March 27, 2026
Autoren: Nicolas von Lützow, Barbara Rössle, Katharina Schmid, Matthias Nießner
cs.AI

Zusammenfassung

Die jüngsten Fortschritte im Bereich der generativen 3D-Modellierung basieren überwiegend auf Diffusions- oder Flow-Matching-Ansätzen. Wir untersuchen stattdessen eine vollständig autoregressive Alternative und stellen GaussianGPT vor, ein transformerbasiertes Modell, das direkt 3D-Gaussianen über Next-Token-Prediction erzeugt und so die vollständige 3D-Szenengenerierung ermöglicht. Zunächst komprimieren wir Gaußsche Primitive mittels eines spärlichen 3D-Faltungsautoencoders mit Vektorquantisierung in ein diskretes latentes Gitter. Die resultierenden Tokens werden serialisiert und mit einem kausalen Transformer unter Verwendung von 3D-Rotations-Positionsembedding modelliert, was eine sequenzielle Generierung von räumlicher Struktur und Erscheinungsbild ermöglicht. Im Gegensatz zu diffusionsbasierten Methoden, die Szenen ganzheitlich verfeinern, konstruiert unser Ansatz Szenen schrittweise und unterstützt dadurch natürlich Vervollständigung, Outpainting, kontrollierbare Sampling-Verfahren über die Temperatur sowie flexible Generierungshorizonte. Diese Formulierung nutzt die kompositionellen induktiven Verzerrungen und Skalierbarkeit des autoregressiven Modellierens, während sie auf expliziten Repräsentationen operiert, die mit modernen neuronalen Rendering-Pipelines kompatibel sind. Dies positioniert autoregressive Transformer als ein komplementäres Paradigma für kontrollierbare und kontextbewusste 3D-Generierung.
English
Most recent advances in 3D generative modeling rely on diffusion or flow-matching formulations. We instead explore a fully autoregressive alternative and introduce GaussianGPT, a transformer-based model that directly generates 3D Gaussians via next-token prediction, thus facilitating full 3D scene generation. We first compress Gaussian primitives into a discrete latent grid using a sparse 3D convolutional autoencoder with vector quantization. The resulting tokens are serialized and modeled using a causal transformer with 3D rotary positional embedding, enabling sequential generation of spatial structure and appearance. Unlike diffusion-based methods that refine scenes holistically, our formulation constructs scenes step-by-step, naturally supporting completion, outpainting, controllable sampling via temperature, and flexible generation horizons. This formulation leverages the compositional inductive biases and scalability of autoregressive modeling while operating on explicit representations compatible with modern neural rendering pipelines, positioning autoregressive transformers as a complementary paradigm for controllable and context-aware 3D generation.
PDF100April 3, 2026