ZPressor: Compressão Consciente de Gargalos para 3DGS Feed-Forward Escalável

Resumo

Modelos de Splatting Gaussiano 3D Feed-forward (3DGS) surgiram recentemente como uma solução promissora para a síntese de novas visões, permitindo inferência em uma única passagem sem a necessidade de otimização 3DGS por cena. No entanto, sua escalabilidade é fundamentalmente limitada pela capacidade restrita de seus codificadores, resultando em desempenho degradado ou consumo excessivo de memória à medida que o número de visões de entrada aumenta. Neste trabalho, analisamos frameworks 3DGS feed-forward através da lente do princípio do Gargalo de Informação e introduzimos ZPressor, um módulo leve e independente de arquitetura que permite a compressão eficiente de entradas multi-visão em um estado latente compacto Z, que retém informações essenciais da cena enquanto descarta redundâncias. Concretamente, o ZPressor permite que modelos 3DGS feed-forward existentes escalem para mais de 100 visões de entrada em resolução 480P em uma GPU de 80GB, particionando as visões em conjuntos âncora e de suporte e usando atenção cruzada para comprimir as informações das visões de suporte nas visões âncora, formando o estado latente comprimido Z. Mostramos que a integração do ZPressor em vários modelos 3DGS feed-forward state-of-the-art melhora consistentemente o desempenho sob visões de entrada moderadas e aumenta a robustez em configurações de visões densas em dois benchmarks de grande escala, DL3DV-10K e RealEstate10K. Os resultados em vídeo, código e modelos treinados estão disponíveis em nossa página do projeto: https://lhmd.top/zpressor.

English

Feed-forward 3D Gaussian Splatting (3DGS) models have recently emerged as a promising solution for novel view synthesis, enabling one-pass inference without the need for per-scene 3DGS optimization. However, their scalability is fundamentally constrained by the limited capacity of their encoders, leading to degraded performance or excessive memory consumption as the number of input views increases. In this work, we analyze feed-forward 3DGS frameworks through the lens of the Information Bottleneck principle and introduce ZPressor, a lightweight architecture-agnostic module that enables efficient compression of multi-view inputs into a compact latent state Z that retains essential scene information while discarding redundancy. Concretely, ZPressor enables existing feed-forward 3DGS models to scale to over 100 input views at 480P resolution on an 80GB GPU, by partitioning the views into anchor and support sets and using cross attention to compress the information from the support views into anchor views, forming the compressed latent state Z. We show that integrating ZPressor into several state-of-the-art feed-forward 3DGS models consistently improves performance under moderate input views and enhances robustness under dense view settings on two large-scale benchmarks DL3DV-10K and RealEstate10K. The video results, code and trained models are available on our project page: https://lhmd.top/zpressor.

ZPressor: Compressão Consciente de Gargalos para 3DGS Feed-Forward Escalável

ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS

Resumo

Support