TideGS: Entrenamiento Escalable de Más de Mil Millones de Primitivas de Gaussian Splatting 3D mediante Optimización Fuera de Núcleo

Resumen

El entrenamiento de Splatting de Gaussianas 3D (3DGS) a escala de mil millones de primitivas está fundamentalmente limitado por la memoria: cada primitiva gaussiana lleva consigo un vector de atributos grande, y la tabla de parámetros agregada supera rápidamente la capacidad de la GPU, restringiendo los sistemas anteriores a decenas de millones de gaussianas en hardware comercial de una sola GPU. Observamos que el entrenamiento de 3DGS es inherentemente disperso y condicionado por la trayectoria: cada iteración activa únicamente las gaussianas visibles desde el lote de cámaras actual, por lo que la memoria de la GPU puede actuar como una caché del conjunto de trabajo en lugar de un almacén de parámetros persistente. Partiendo de esta idea, presentamos TideGS, un marco de entrenamiento fuera de núcleo que gestiona los parámetros a través de una jerarquía SSD-CPU-GPU mediante tres técnicas sinérgicas: geometría virtualizada por bloques para la localidad espacial alineada con SSD, una tubería asíncrona jerárquica para superponer E/S con cómputo, y transmisión diferencial adaptativa a la trayectoria que transfiere únicamente los deltas incrementales del conjunto de trabajo entre iteraciones. Los experimentos muestran que TideGS permite entrenar con más de mil millones de gaussianas en una sola GPU de 24 GB, logrando la mejor calidad de reconstrucción entre las bases de referencia evaluadas con una sola GPU en escenas a gran escala, escalando más allá de las bases de referencia fuera de núcleo anteriores (por ejemplo, aproximadamente 100 millones de gaussianas) y del entrenamiento estándar en memoria (por ejemplo, aproximadamente 11 millones de gaussianas).

English

Training 3D Gaussian Splatting (3DGS) at billion-primitive scale is fundamentally memory-bound: each Gaussian primitive carries a large attribute vector, and the aggregate parameter table quickly exceeds GPU capacity, limiting prior systems to tens of millions of Gaussians on commodity single-GPU hardware. We observe that 3DGS training is inherently sparse and trajectory-conditioned: each iteration activates only the Gaussians visible from the current camera batch, so GPU memory can serve as a working-set cache rather than a persistent parameter store. Building on this insight, we introduce TideGS, an out-of-core training framework that manages parameters across an SSD-CPU-GPU hierarchy via three synergistic techniques: block-virtualized geometry for SSD-aligned spatial locality, a hierarchical asynchronous pipeline to overlap I/O with computation, and trajectory-adaptive differential streaming that transfers only incremental working-set deltas between iterations. Experiments show that TideGS enables training with over one billion Gaussians on a single 24 GB GPU while achieving the best reconstruction quality among evaluated single-GPU baselines on large-scale scenes, scaling beyond prior out-of-core baselines (e.g., approximately 100M Gaussians) and standard in-memory training (e.g., approximately 11M Gaussians).