GaussianGPT: К авторегрессионной генерации сцен на основе 3D-гауссиан
GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation
March 27, 2026
Авторы: Nicolas von Lützow, Barbara Rössle, Katharina Schmid, Matthias Nießner
cs.AI
Аннотация
Последние достижения в области генеративного 3D-моделирования основаны на диффузионных или flow-matching подходах. В качестве альтернативы мы исследуем полностью авторегрессионный метод и представляем GaussianGPT — трансформерную модель, которая напрямую генерирует 3D-гауссианы посредством предсказания следующего токена, что обеспечивает генерацию полных 3D-сцен. Сначала мы сжимаем гауссовы примитивы в дискретную латентную сетку с использованием разреженного 3D-сверточного автоэнкодера с векторной квантизацией. Полученные токены сериализуются и моделируются с помощью каузального трансформера с 3D-ротационной позиционной эмбеддингой, что позволяет последовательно генерировать пространственную структуру и внешний вид. В отличие от диффузионных методов, которые уточняют сцены целостно, наш подход конструирует сцены пошагово, естественным образом поддерживая дополнение, расширение сцены, контролируемую семплизацию через температуру и гибкие горизонты генерации. Данная формулировка использует композиционные индуктивные смещения и масштабируемость авторегрессионного моделирования, работая с явными представлениями, совместимыми с современными нейронными конвейерами рендеринга, что позиционирует авторегрессионные трансформеры как дополнительную парадигму для контролируемой и контекстно-осознанной 3D-генерации.
English
Most recent advances in 3D generative modeling rely on diffusion or flow-matching formulations. We instead explore a fully autoregressive alternative and introduce GaussianGPT, a transformer-based model that directly generates 3D Gaussians via next-token prediction, thus facilitating full 3D scene generation. We first compress Gaussian primitives into a discrete latent grid using a sparse 3D convolutional autoencoder with vector quantization. The resulting tokens are serialized and modeled using a causal transformer with 3D rotary positional embedding, enabling sequential generation of spatial structure and appearance. Unlike diffusion-based methods that refine scenes holistically, our formulation constructs scenes step-by-step, naturally supporting completion, outpainting, controllable sampling via temperature, and flexible generation horizons. This formulation leverages the compositional inductive biases and scalability of autoregressive modeling while operating on explicit representations compatible with modern neural rendering pipelines, positioning autoregressive transformers as a complementary paradigm for controllable and context-aware 3D generation.