TideGS: Treinamento escalável de mais de um bilhão de primitivas de Gaussian Splatting 3D via otimização out-of-core

Resumo

O treinamento de 3D Gaussian Splatting (3DGS) em escala de bilhões de primitivas é fundamentalmente limitado pela memória: cada primitiva gaussiana carrega um grande vetor de atributos, e a tabela de parâmetros agregada rapidamente excede a capacidade da GPU, limitando sistemas anteriores a dezenas de milhões de Gaussianas em hardware de GPU única comum. Observamos que o treinamento de 3DGS é inerentemente esparso e condicionado à trajetória: cada iteração ativa apenas as Gaussianas visíveis a partir do lote atual de câmeras, de modo que a memória da GPU pode servir como um cache de conjunto de trabalho, em vez de um armazenamento persistente de parâmetros. Com base nessa percepção, apresentamos o TideGS, uma estrutura de treinamento fora do núcleo (out-of-core) que gerencia parâmetros em uma hierarquia SSD-CPU-GPU por meio de três técnicas sinérgicas: geometria virtualizada por blocos para localidade espacial alinhada ao SSD, um pipeline assíncrono hierárquico para sobrepor E/S com computação, e streaming diferencial adaptativo à trajetória que transfere apenas diferenças incrementais do conjunto de trabalho entre iterações. Experimentos mostram que o TideGS permite o treinamento com mais de um bilhão de Gaussianas em uma única GPU de 24 GB, alcançando a melhor qualidade de reconstrução entre as bases de referência de GPU única avaliadas em cenas de grande escala, escalando além de bases de referência anteriores fora do núcleo (por exemplo, aproximadamente 100 milhões de Gaussianas) e do treinamento padrão em memória (por exemplo, aproximadamente 11 milhões de Gaussianas).

English

Training 3D Gaussian Splatting (3DGS) at billion-primitive scale is fundamentally memory-bound: each Gaussian primitive carries a large attribute vector, and the aggregate parameter table quickly exceeds GPU capacity, limiting prior systems to tens of millions of Gaussians on commodity single-GPU hardware. We observe that 3DGS training is inherently sparse and trajectory-conditioned: each iteration activates only the Gaussians visible from the current camera batch, so GPU memory can serve as a working-set cache rather than a persistent parameter store. Building on this insight, we introduce TideGS, an out-of-core training framework that manages parameters across an SSD-CPU-GPU hierarchy via three synergistic techniques: block-virtualized geometry for SSD-aligned spatial locality, a hierarchical asynchronous pipeline to overlap I/O with computation, and trajectory-adaptive differential streaming that transfers only incremental working-set deltas between iterations. Experiments show that TideGS enables training with over one billion Gaussians on a single 24 GB GPU while achieving the best reconstruction quality among evaluated single-GPU baselines on large-scale scenes, scaling beyond prior out-of-core baselines (e.g., approximately 100M Gaussians) and standard in-memory training (e.g., approximately 11M Gaussians).