TideGS: Масштабируемое обучение более миллиарда примитивов трехмерного гауссова сплаттинга с помощью out-of-core оптимизации

Аннотация

Обучение 3D-гауссова разбрызгивания (3DGS) в масштабе миллиардов примитивов принципиально ограничивается памятью: каждый гауссов примитив несёт большой вектор атрибутов, а совокупная таблица параметров быстро превышает объём памяти GPU, что ограничивает существующие системы десятками миллионов гауссианов на стандартном однопроцессорном оборудовании с GPU. Мы отмечаем, что обучение 3DGS по своей природе разрежено и обусловлено траекторией: на каждой итерации активируются только те гауссианы, которые видны из текущего пакета камер, поэтому память GPU может служить кэшем рабочего набора, а не постоянным хранилищем параметров. Основываясь на этом наблюдении, мы представляем TideGS — фреймворк для внеядерного обучения, который управляет параметрами в иерархии SSD-ЦПУ-GPU с помощью трёх синергетических методов: блочно-виртуализированной геометрии для пространственной локальности, согласованной с SSD; иерархического асинхронного конвейера для перекрытия операций ввода-вывода с вычислениями; и траекторно-адаптивной дифференциальной потоковой передачи, которая переносит между итерациями только инкрементальные дельты рабочего набора. Эксперименты показывают, что TideGS позволяет обучать модели с более чем миллиардом гауссианов на одном GPU объёмом 24 ГБ, достигая наилучшего качества реконструкции среди оценённых однопроцессорных базовых решений для крупномасштабных сцен, превосходя предыдущие внеядерные методы (например, ~100 млн гауссианов) и стандартное обучение в памяти (например, ~11 млн гауссианов).

English

Training 3D Gaussian Splatting (3DGS) at billion-primitive scale is fundamentally memory-bound: each Gaussian primitive carries a large attribute vector, and the aggregate parameter table quickly exceeds GPU capacity, limiting prior systems to tens of millions of Gaussians on commodity single-GPU hardware. We observe that 3DGS training is inherently sparse and trajectory-conditioned: each iteration activates only the Gaussians visible from the current camera batch, so GPU memory can serve as a working-set cache rather than a persistent parameter store. Building on this insight, we introduce TideGS, an out-of-core training framework that manages parameters across an SSD-CPU-GPU hierarchy via three synergistic techniques: block-virtualized geometry for SSD-aligned spatial locality, a hierarchical asynchronous pipeline to overlap I/O with computation, and trajectory-adaptive differential streaming that transfers only incremental working-set deltas between iterations. Experiments show that TideGS enables training with over one billion Gaussians on a single 24 GB GPU while achieving the best reconstruction quality among evaluated single-GPU baselines on large-scale scenes, scaling beyond prior out-of-core baselines (e.g., approximately 100M Gaussians) and standard in-memory training (e.g., approximately 11M Gaussians).