TideGS: Skalierbares Training von über einer Milliarde 3D-Gauß-Splatting-Primitiven durch Out-of-Core-Optimierung

Zusammenfassung

Das Training von 3D Gaussian Splatting (3DGS) im Maßstab von Milliarden von Primitiven ist grundsätzlich speicherbegrenzt: Jedes Gauß'sche Primitive trägt einen großen Attributvektor, und die aggregierte Parametertabelle übersteigt schnell die GPU-Kapazität, wodurch frühere Systeme auf zehn Millionen Gauß'sche Primitive auf handelsüblicher Single-GPU-Hardware beschränkt sind. Wir stellen fest, dass das 3DGS-Training inhärent dünnbesetzt und trajektorienabhängig ist: Jede Iteration aktiviert nur die Gauß'schen Primitive, die aus dem aktuellen Kamerabatch sichtbar sind, sodass der GPU-Speicher als Arbeitsmengen-Cache und nicht als persistenter Parameterspeicher dienen kann. Basierend auf dieser Erkenntnis führen wir TideGS ein, ein Out-of-Core-Trainingsframework, das Parameter über eine SSD-CPU-GPU-Hierarchie mittels drei synergetischer Techniken verwaltet: blockvirtualisierte Geometrie für SSD-ausgerichtete räumliche Lokalität, eine hierarchische asynchrone Pipeline zur Überlappung von I/O mit Berechnungen und trajektorienadaptive differentielle Datenstromverarbeitung, die nur inkrementelle Arbeitsmengen-Deltas zwischen Iterationen überträgt. Experimente zeigen, dass TideGS das Training mit über einer Milliarde Gauß'scher Primitive auf einer einzelnen 24-GB-GPU ermöglicht und dabei die beste Rekonstruktionsqualität unter den evaluierten Single-GPU-Baselines auf großflächigen Szenen erreicht, was über frühere Out-of-Core-Baselines (z. B. etwa 100 Mio. Gauß'sche Primitive) und standardmäßiges In-Memory-Training (z. B. etwa 11 Mio. Gauß'sche Primitive) hinausgeht.

English

Training 3D Gaussian Splatting (3DGS) at billion-primitive scale is fundamentally memory-bound: each Gaussian primitive carries a large attribute vector, and the aggregate parameter table quickly exceeds GPU capacity, limiting prior systems to tens of millions of Gaussians on commodity single-GPU hardware. We observe that 3DGS training is inherently sparse and trajectory-conditioned: each iteration activates only the Gaussians visible from the current camera batch, so GPU memory can serve as a working-set cache rather than a persistent parameter store. Building on this insight, we introduce TideGS, an out-of-core training framework that manages parameters across an SSD-CPU-GPU hierarchy via three synergistic techniques: block-virtualized geometry for SSD-aligned spatial locality, a hierarchical asynchronous pipeline to overlap I/O with computation, and trajectory-adaptive differential streaming that transfers only incremental working-set deltas between iterations. Experiments show that TideGS enables training with over one billion Gaussians on a single 24 GB GPU while achieving the best reconstruction quality among evaluated single-GPU baselines on large-scale scenes, scaling beyond prior out-of-core baselines (e.g., approximately 100M Gaussians) and standard in-memory training (e.g., approximately 11M Gaussians).