GlobalSplat: Эффективное прямое преобразование 3D-гауссовых облаков через глобальные токены сцены

Аннотация

Эффективное пространственное распределение примитивов служит основой для метода 3D Gaussian Splatting, поскольку оно напрямую определяет синергию между компактностью представления, скоростью реконструкции и точностью рендеринга. Существующие решения, будь то основанные на итеративной оптимизации или прямом выводе, страдают от значительных компромиссов между этими целями, в основном из-за reliance на локальные, эвристически управляемые стратегии распределения, которым не хватает глобального понимания сцены. В частности, современные методы прямого вывода в значительной степени выровнены по пикселям или вокселям. Путем проецирования пикселей в плотные, выровненные по виду примитивы, они закладывают избыточность в 3D-ассет. По мере добавления большего количества исходных видов размер представления увеличивается, а глобальная согласованность становится хрупкой. Для решения этой проблемы мы представляем GlobalSplat — фреймворк, построенный на принципе «сначала выровняй, потом декодируй». Наш подход изучает компактное, глобальное, латентное представление сцены, которое кодирует многовидовой вход и разрешает межвидовые соответствия до декодирования какой-либо явной 3D-геометрии. Ключевым моментом является то, что такая формулировка позволяет получать компактные, глобально согласованные реконструкции без опоры на предварительно обученные основы для предсказания пикселей или повторного использования латентных признаков из плотных базовых методов. Используя учебный план «от грубого к точному», который постепенно увеличивает декодируемую емкость, GlobalSplat изначально предотвращает раздувание представления. На наборах данных RealEstate10K и ACID наша модель демонстрирует конкурентоспособную производительность синтеза новых видов, используя всего 16 тысяч гауссиан, что значительно меньше, чем требуется плотным конвейерам, и достигая легкого размера в 4 МБ. Кроме того, GlobalSplat обеспечивает значительно более быстрый вывод по сравнению с базовыми методами, работая менее чем за 78 миллисекунд за один прямой проход. Страница проекта доступна по адресу https://r-itk.github.io/globalsplat/

English

The efficient spatial allocation of primitives serves as the foundation of 3D Gaussian Splatting, as it directly dictates the synergy between representation compactness, reconstruction speed, and rendering fidelity. Previous solutions, whether based on iterative optimization or feed-forward inference, suffer from significant trade-offs between these goals, mainly due to the reliance on local, heuristic-driven allocation strategies that lack global scene awareness. Specifically, current feed-forward methods are largely pixel-aligned or voxel-aligned. By unprojecting pixels into dense, view-aligned primitives, they bake redundancy into the 3D asset. As more input views are added, the representation size increases and global consistency becomes fragile. To this end, we introduce GlobalSplat, a framework built on the principle of align first, decode later. Our approach learns a compact, global, latent scene representation that encodes multi-view input and resolves cross-view correspondences before decoding any explicit 3D geometry. Crucially, this formulation enables compact, globally consistent reconstructions without relying on pretrained pixel-prediction backbones or reusing latent features from dense baselines. Utilizing a coarse-to-fine training curriculum that gradually increases decoded capacity, GlobalSplat natively prevents representation bloat. On RealEstate10K and ACID, our model achieves competitive novel-view synthesis performance while utilizing as few as 16K Gaussians, significantly less than required by dense pipelines, obtaining a light 4MB footprint. Further, GlobalSplat enables significantly faster inference than the baselines, operating under 78 milliseconds in a single forward pass. Project page is available at https://r-itk.github.io/globalsplat/

GlobalSplat: Эффективное прямое преобразование 3D-гауссовых облаков через глобальные токены сцены

GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens

Аннотация

Support