TideGS: Skalierbares Training von über einer Milliarde 3D-Gauß-Splatting-Primitiven durch Out-of-Core-Optimierung
TideGS: Scalable Training of Over One Billion 3D Gaussian Splatting Primitives via Out-of-Core Optimization
May 19, 2026
Autoren: Chonghao Zhong, Linfeng Shi, Hua Chen, Tiecheng Sun, Hao Zhao, Binhang Yuan, Chaojian Li
cs.AI
Zusammenfassung
Das Training von 3D Gaussian Splatting (3DGS) im Maßstab von Milliarden von Primitiven ist grundsätzlich speicherbegrenzt: Jedes Gauß'sche Primitive trägt einen großen Attributvektor, und die aggregierte Parametertabelle übersteigt schnell die GPU-Kapazität, wodurch frühere Systeme auf zehn Millionen Gauß'sche Primitive auf handelsüblicher Single-GPU-Hardware beschränkt sind. Wir stellen fest, dass das 3DGS-Training inhärent dünnbesetzt und trajektorienabhängig ist: Jede Iteration aktiviert nur die Gauß'schen Primitive, die aus dem aktuellen Kamerabatch sichtbar sind, sodass der GPU-Speicher als Arbeitsmengen-Cache und nicht als persistenter Parameterspeicher dienen kann. Basierend auf dieser Erkenntnis führen wir TideGS ein, ein Out-of-Core-Trainingsframework, das Parameter über eine SSD-CPU-GPU-Hierarchie mittels drei synergetischer Techniken verwaltet: blockvirtualisierte Geometrie für SSD-ausgerichtete räumliche Lokalität, eine hierarchische asynchrone Pipeline zur Überlappung von I/O mit Berechnungen und trajektorienadaptive differentielle Datenstromverarbeitung, die nur inkrementelle Arbeitsmengen-Deltas zwischen Iterationen überträgt. Experimente zeigen, dass TideGS das Training mit über einer Milliarde Gauß'scher Primitive auf einer einzelnen 24-GB-GPU ermöglicht und dabei die beste Rekonstruktionsqualität unter den evaluierten Single-GPU-Baselines auf großflächigen Szenen erreicht, was über frühere Out-of-Core-Baselines (z. B. etwa 100 Mio. Gauß'sche Primitive) und standardmäßiges In-Memory-Training (z. B. etwa 11 Mio. Gauß'sche Primitive) hinausgeht.
English
Training 3D Gaussian Splatting (3DGS) at billion-primitive scale is fundamentally memory-bound: each Gaussian primitive carries a large attribute vector, and the aggregate parameter table quickly exceeds GPU capacity, limiting prior systems to tens of millions of Gaussians on commodity single-GPU hardware. We observe that 3DGS training is inherently sparse and trajectory-conditioned: each iteration activates only the Gaussians visible from the current camera batch, so GPU memory can serve as a working-set cache rather than a persistent parameter store. Building on this insight, we introduce TideGS, an out-of-core training framework that manages parameters across an SSD-CPU-GPU hierarchy via three synergistic techniques: block-virtualized geometry for SSD-aligned spatial locality, a hierarchical asynchronous pipeline to overlap I/O with computation, and trajectory-adaptive differential streaming that transfers only incremental working-set deltas between iterations. Experiments show that TideGS enables training with over one billion Gaussians on a single 24 GB GPU while achieving the best reconstruction quality among evaluated single-GPU baselines on large-scale scenes, scaling beyond prior out-of-core baselines (e.g., approximately 100M Gaussians) and standard in-memory training (e.g., approximately 11M Gaussians).