TideGS: schaalbare training van meer dan een miljard 3D Gaussische Splatting-primitieven via out-of-core-optimalisatie

Samenvatting

Het trainen van 3D Gaussian Splatting (3DGS) op een schaal van miljarden primitieven is fundamenteel geheugengebonden: elke Gaussische primitief draagt een grote attributenvector, en de totale parametertabel overschrijdt snel de GPU-capaciteit, waardoor eerdere systemen beperkt blijven tot tientallen miljoenen Gaussiaanse functies op gangbare single-GPU-hardware. We merken op dat 3DGS-training inherent schaars en trajectgeconditioneerd is: elke iteratie activeert alleen de Gaussiaanse functies die zichtbaar zijn vanuit de huidige camerabatch, waardoor GPU-geheugen kan dienen als een werkverzameling-cache in plaats van een persistente parameteropslag. Voortbouwend op dit inzicht introduceren we TideGS, een out-of-core trainingsraamwerk dat parameters beheert over een SSD-CPU-GPU-hiërarchie via drie synergistische technieken: blokgevirtualiseerde geometrie voor SSD-uitgelijnde ruimtelijke localiteit, een hiërarchische asynchrone pijplijn om I/O met berekening te overlappen, en trajectadaptieve differentiële streaming die alleen incrementele werkverzamelingsdelta's tussen iteraties overdraagt. Experimenten tonen aan dat TideGS training met meer dan een miljard Gaussiaanse functies op een enkele 24 GB GPU mogelijk maakt, terwijl de beste reconstructiekwaliteit wordt bereikt onder de geëvalueerde single-GPU-baselines voor grootschalige scènes, en verder schaalt dan eerdere out-of-core-baselines (bijv. circa 100M Gaussiaanse functies) en standaard in-memory training (bijv. circa 11M Gaussiaanse functies).

English

Training 3D Gaussian Splatting (3DGS) at billion-primitive scale is fundamentally memory-bound: each Gaussian primitive carries a large attribute vector, and the aggregate parameter table quickly exceeds GPU capacity, limiting prior systems to tens of millions of Gaussians on commodity single-GPU hardware. We observe that 3DGS training is inherently sparse and trajectory-conditioned: each iteration activates only the Gaussians visible from the current camera batch, so GPU memory can serve as a working-set cache rather than a persistent parameter store. Building on this insight, we introduce TideGS, an out-of-core training framework that manages parameters across an SSD-CPU-GPU hierarchy via three synergistic techniques: block-virtualized geometry for SSD-aligned spatial locality, a hierarchical asynchronous pipeline to overlap I/O with computation, and trajectory-adaptive differential streaming that transfers only incremental working-set deltas between iterations. Experiments show that TideGS enables training with over one billion Gaussians on a single 24 GB GPU while achieving the best reconstruction quality among evaluated single-GPU baselines on large-scale scenes, scaling beyond prior out-of-core baselines (e.g., approximately 100M Gaussians) and standard in-memory training (e.g., approximately 11M Gaussians).