ChatPaper.aiChatPaper

ZPressor: Сжатие с учетом узких мест для масштабируемой прямой передачи 3DGS

ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS

May 29, 2025
Авторы: Weijie Wang, Donny Y. Chen, Zeyu Zhang, Duochao Shi, Akide Liu, Bohan Zhuang
cs.AI

Аннотация

Прямопроходные модели 3D Gaussian Splatting (3DGS) недавно появились как перспективное решение для синтеза новых видов, позволяя выполнять однократный вывод без необходимости оптимизации 3DGS для каждой сцены. Однако их масштабируемость фундаментально ограничена ограниченной емкостью их кодировщиков, что приводит к ухудшению производительности или чрезмерному потреблению памяти с увеличением количества входных видов. В данной работе мы анализируем прямопроходные фреймворки 3DGS через призму принципа Информационного Бутылочного Горлышка и представляем ZPressor — легковесный модуль, независимый от архитектуры, который позволяет эффективно сжимать многовидовые входные данные в компактное латентное состояние Z, сохраняя при этом важную информацию о сцене и отбрасывая избыточность. Конкретно, ZPressor позволяет существующим прямопроходным моделям 3DGS масштабироваться до более чем 100 входных видов с разрешением 480P на GPU с 80 ГБ памяти, разделяя виды на опорные и вспомогательные наборы и используя кросс-внимание для сжатия информации из вспомогательных видов в опорные, формируя сжатое латентное состояние Z. Мы показываем, что интеграция ZPressor в несколько современных прямопроходных моделей 3DGS последовательно улучшает производительность при умеренном количестве входных видов и повышает устойчивость в условиях плотного набора видов на двух крупномасштабных бенчмарках DL3DV-10K и RealEstate10K. Видео результаты, код и обученные модели доступны на нашей странице проекта: https://lhmd.top/zpressor.
English
Feed-forward 3D Gaussian Splatting (3DGS) models have recently emerged as a promising solution for novel view synthesis, enabling one-pass inference without the need for per-scene 3DGS optimization. However, their scalability is fundamentally constrained by the limited capacity of their encoders, leading to degraded performance or excessive memory consumption as the number of input views increases. In this work, we analyze feed-forward 3DGS frameworks through the lens of the Information Bottleneck principle and introduce ZPressor, a lightweight architecture-agnostic module that enables efficient compression of multi-view inputs into a compact latent state Z that retains essential scene information while discarding redundancy. Concretely, ZPressor enables existing feed-forward 3DGS models to scale to over 100 input views at 480P resolution on an 80GB GPU, by partitioning the views into anchor and support sets and using cross attention to compress the information from the support views into anchor views, forming the compressed latent state Z. We show that integrating ZPressor into several state-of-the-art feed-forward 3DGS models consistently improves performance under moderate input views and enhances robustness under dense view settings on two large-scale benchmarks DL3DV-10K and RealEstate10K. The video results, code and trained models are available on our project page: https://lhmd.top/zpressor.
PDF45May 30, 2025