ZPressor: Compressão Consciente de Gargalos para 3DGS Feed-Forward Escalável
ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS
May 29, 2025
Autores: Weijie Wang, Donny Y. Chen, Zeyu Zhang, Duochao Shi, Akide Liu, Bohan Zhuang
cs.AI
Resumo
Modelos de Splatting Gaussiano 3D Feed-forward (3DGS) surgiram recentemente como uma solução promissora para a síntese de novas visões, permitindo inferência em uma única passagem sem a necessidade de otimização 3DGS por cena. No entanto, sua escalabilidade é fundamentalmente limitada pela capacidade restrita de seus codificadores, resultando em desempenho degradado ou consumo excessivo de memória à medida que o número de visões de entrada aumenta. Neste trabalho, analisamos frameworks 3DGS feed-forward através da lente do princípio do Gargalo de Informação e introduzimos ZPressor, um módulo leve e independente de arquitetura que permite a compressão eficiente de entradas multi-visão em um estado latente compacto Z, que retém informações essenciais da cena enquanto descarta redundâncias. Concretamente, o ZPressor permite que modelos 3DGS feed-forward existentes escalem para mais de 100 visões de entrada em resolução 480P em uma GPU de 80GB, particionando as visões em conjuntos âncora e de suporte e usando atenção cruzada para comprimir as informações das visões de suporte nas visões âncora, formando o estado latente comprimido Z. Mostramos que a integração do ZPressor em vários modelos 3DGS feed-forward state-of-the-art melhora consistentemente o desempenho sob visões de entrada moderadas e aumenta a robustez em configurações de visões densas em dois benchmarks de grande escala, DL3DV-10K e RealEstate10K. Os resultados em vídeo, código e modelos treinados estão disponíveis em nossa página do projeto: https://lhmd.top/zpressor.
English
Feed-forward 3D Gaussian Splatting (3DGS) models have recently emerged as a
promising solution for novel view synthesis, enabling one-pass inference
without the need for per-scene 3DGS optimization. However, their scalability is
fundamentally constrained by the limited capacity of their encoders, leading to
degraded performance or excessive memory consumption as the number of input
views increases. In this work, we analyze feed-forward 3DGS frameworks through
the lens of the Information Bottleneck principle and introduce ZPressor, a
lightweight architecture-agnostic module that enables efficient compression of
multi-view inputs into a compact latent state Z that retains essential scene
information while discarding redundancy. Concretely, ZPressor enables existing
feed-forward 3DGS models to scale to over 100 input views at 480P resolution on
an 80GB GPU, by partitioning the views into anchor and support sets and using
cross attention to compress the information from the support views into anchor
views, forming the compressed latent state Z. We show that integrating
ZPressor into several state-of-the-art feed-forward 3DGS models consistently
improves performance under moderate input views and enhances robustness under
dense view settings on two large-scale benchmarks DL3DV-10K and RealEstate10K.
The video results, code and trained models are available on our project page:
https://lhmd.top/zpressor.