ZipSplat: Menos Gaussianos, Melhores Splats

Resumo

Métodos de Splatting de Gaussiano 3D feed-forward reconstroem uma cena a partir de imagens com pose ou sem pose em uma única passagem direta, porém as abordagens atuais preveem um Gaussiano por pixel de entrada, vinculando o orçamento de representação à resolução da câmera em vez da complexidade da cena. Uma parede lisa e um objeto com textura rica produzem, assim, igualmente muitos Gaussianos, apesar de necessidades geométricas muito diferentes. Propomos o ZipSplat, um modelo feed-forward baseado em tokens que desacopla o posicionamento dos Gaussianos da grade de pixels. Um backbone multi-visão extrai tokens visuais densos, e o agrupamento k-means os comprime em um conjunto compacto de tokens da cena. Atenção cruzada e auto-atenção refinam esses tokens, e um MLP leve decodifica cada um em um grupo de Gaussianos com posições 3D sem restrições. Como o agrupamento é aplicado na inferência, um único modelo treinado percorre a curva qualidade-eficiência sem retreinamento. O ZipSplat opera sem poses ou intrínsecos reais, mas estabelece um novo estado da arte no DL3DV e RealEstate10K com aproximadamente 6 vezes menos Gaussianos do que métodos alinhados por pixel, superando a melhor linha de base livre de pose em 2,1dB e 1,2dB de PSNR, respectivamente. Ele ainda generaliza zero-shot para Mip-NeRF360 e ScanNet++, superando todas as linhas de base comparáveis. Nossa página do projeto está em {https://veichta.com/zipsplat}.

English

Feed-forward 3D Gaussian Splatting methods reconstruct a scene from posed or pose-free images in a single forward pass, yet current approaches predict one Gaussian per input pixel, tying the representation budget to camera resolution rather than scene complexity. A flat wall and a richly textured object thus produce equally many Gaussians despite very different geometric needs. We propose ZipSplat, a token-based feed-forward model that decouples Gaussian placement from the pixel grid. A multi-view backbone extracts dense visual tokens, and k-means clustering compresses them into a compact set of scene tokens. Cross- and self-attention refine these tokens, and a lightweight MLP decodes each into a group of Gaussians with unconstrained 3D positions. Because clustering is applied at inference, a single trained model spans the quality-efficiency curve without retraining. ZipSplat operates without ground-truth poses or intrinsics, yet sets a new state of the art on DL3DV and RealEstate10K with {sim}6{times} fewer Gaussians than pixel-aligned methods, surpassing the best pose-free baseline by 2.1dB and 1.2dB PSNR, respectively. It further generalizes zero-shot to Mip-NeRF360 and ScanNet++, outperforming all comparable baselines. Our project page is at {https://veichta.com/zipsplat{https://veichta.com/zipsplat}}.