ChatPaper.aiChatPaper

ZipSplat: 더 적은 가우시안, 더 나은 스플랫

ZipSplat: Fewer Gaussians, Better Splats

June 3, 2026
저자: Alexander Veicht, Sunghwan Hong, Dániel Baráth, Marc Pollefeys
cs.AI

초록

피드-포워드 3D 가우시안 스플래팅 방법은 포즈가 있거나 없는 이미지로부터 단일 순방향 패스로 장면을 재구성하지만, 현재 접근법은 입력 픽셀당 하나의 가우시안을 예측하여 표현 예산을 장면 복잡도가 아닌 카메라 해상도에 고정시킨다. 따라서 평평한 벽과 질감이 풍부한 객체는 매우 다른 기하학적 요구에도 불구하고 동일한 수의 가우시안을 생성한다. 우리는 가우시안 배치를 픽셀 그리드에서 분리하는 토큰 기반 피드-포워드 모델인 ZipSplat을 제안한다. 다중 뷰 백본이 조밀한 시각 토큰을 추출하고, k-평균 클러스터링이 이를 간결한 장면 토큰 집합으로 압축한다. 교차 주의와 자기 주의가 이 토큰들을 정제하며, 경량 MLP가 각 토큰을 제약 없는 3D 위치를 가진 가우시안 그룹으로 디코딩한다. 클러스터링이 추론 시 적용되므로, 단일 학습 모델이 재학습 없이 품질-효율성 곡선을 포괄한다. ZipSplat은 실제 포즈나 내부 파라미터 없이 작동하면서도, 픽셀 정렬 방법보다 약 6배 적은 가우시안으로 DL3DV 및 RealEstate10K에서 최고 수준을 달성하며, 최고의 포즈 없는 기준선을 각각 2.1dB 및 1.2dB PSNR에서 능가한다. 또한 제로샷으로 Mip-NeRF360 및 ScanNet++에 일반화되어 모든 비교 가능한 기준선을 능가한다. 우리의 프로젝트 페이지는 https://veichta.com/zipsplat에 있다.
English
Feed-forward 3D Gaussian Splatting methods reconstruct a scene from posed or pose-free images in a single forward pass, yet current approaches predict one Gaussian per input pixel, tying the representation budget to camera resolution rather than scene complexity. A flat wall and a richly textured object thus produce equally many Gaussians despite very different geometric needs. We propose ZipSplat, a token-based feed-forward model that decouples Gaussian placement from the pixel grid. A multi-view backbone extracts dense visual tokens, and k-means clustering compresses them into a compact set of scene tokens. Cross- and self-attention refine these tokens, and a lightweight MLP decodes each into a group of Gaussians with unconstrained 3D positions. Because clustering is applied at inference, a single trained model spans the quality-efficiency curve without retraining. ZipSplat operates without ground-truth poses or intrinsics, yet sets a new state of the art on DL3DV and RealEstate10K with {sim}6{times} fewer Gaussians than pixel-aligned methods, surpassing the best pose-free baseline by 2.1dB and 1.2dB PSNR, respectively. It further generalizes zero-shot to Mip-NeRF360 and ScanNet++, outperforming all comparable baselines. Our project page is at {https://veichta.com/zipsplat{https://veichta.com/zipsplat}}.