ChatPaper.aiChatPaper

ZPressor: 확장 가능한 순방향 3DGS를 위한 병목 현상 인지 압축 기술

ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS

May 29, 2025
저자: Weijie Wang, Donny Y. Chen, Zeyu Zhang, Duochao Shi, Akide Liu, Bohan Zhuang
cs.AI

초록

피드포워드 3D 가우시안 스플래팅(3DGS) 모델은 최근 장면별 3DGS 최적화 없이도 단일 패스 추론을 가능하게 하여 새로운 시점 합성에 유망한 솔루션으로 떠오르고 있다. 그러나 이러한 모델의 확장성은 인코더의 제한된 용량으로 인해 근본적으로 제약을 받으며, 입력 뷰의 수가 증가함에 따라 성능 저하나 과도한 메모리 소비를 초래한다. 본 연구에서는 정보 병목 원리(Information Bottleneck principle)의 관점에서 피드포워드 3DGS 프레임워크를 분석하고, 다중 뷰 입력을 압축된 잠재 상태 Z로 효율적으로 압축하는 경량의 아키텍처 독립적 모듈인 ZPressor를 소개한다. 구체적으로, ZPressor는 기존 피드포워드 3DGS 모델이 80GB GPU에서 480P 해상도로 100개 이상의 입력 뷰를 처리할 수 있도록 지원하며, 이를 위해 뷰를 앵커 세트와 지원 세트로 분할하고 교차 주의(cross attention)를 사용하여 지원 뷰의 정보를 앵커 뷰로 압축하여 압축된 잠재 상태 Z를 형성한다. ZPressor를 여러 최신 피드포워드 3DGS 모델에 통합함으로써, 중간 정도의 입력 뷰 설정에서 성능이 일관되게 개선되고, 대규모 벤치마크인 DL3DV-10K와 RealEstate10K에서 조밀한 뷰 설정에서의 견고성이 향상됨을 보여준다. 비디오 결과, 코드 및 훈련된 모델은 프로젝트 페이지(https://lhmd.top/zpressor)에서 확인할 수 있다.
English
Feed-forward 3D Gaussian Splatting (3DGS) models have recently emerged as a promising solution for novel view synthesis, enabling one-pass inference without the need for per-scene 3DGS optimization. However, their scalability is fundamentally constrained by the limited capacity of their encoders, leading to degraded performance or excessive memory consumption as the number of input views increases. In this work, we analyze feed-forward 3DGS frameworks through the lens of the Information Bottleneck principle and introduce ZPressor, a lightweight architecture-agnostic module that enables efficient compression of multi-view inputs into a compact latent state Z that retains essential scene information while discarding redundancy. Concretely, ZPressor enables existing feed-forward 3DGS models to scale to over 100 input views at 480P resolution on an 80GB GPU, by partitioning the views into anchor and support sets and using cross attention to compress the information from the support views into anchor views, forming the compressed latent state Z. We show that integrating ZPressor into several state-of-the-art feed-forward 3DGS models consistently improves performance under moderate input views and enhances robustness under dense view settings on two large-scale benchmarks DL3DV-10K and RealEstate10K. The video results, code and trained models are available on our project page: https://lhmd.top/zpressor.
PDF45May 30, 2025