ZipSplat: Minder Gaussianen, Betere Splats

Samenvatting

Feed-forward 3D Gaussian Splatting-methoden reconstrueren een scène van geposeerde of pose-loze afbeeldingen in een enkele voorwaartse doorgang, maar huidige benaderingen voorspellen één Gaussian per invoerpixel, waardoor het representatiebudget wordt gekoppeld aan de cameraresolutie in plaats van aan de scènecomplexiteit. Een platte muur en een rijk gestructureerd object produceren dus evenveel Gaussians, ondanks zeer verschillende geometrische behoeften. Wij stellen ZipSplat voor, een token-gebaseerd feed-forward model dat de plaatsing van Gaussians ontkoppelt van het pixelraster. Een multi-view backbone extraheert dichte visuele tokens, en k-means clustering comprimeert ze tot een compacte set scènetokens. Kruis- en zelf-attentie verfijnen deze tokens, en een lichtgewicht MLP decodeert elk token in een groep Gaussians met ongebonden 3D-posities. Omdat clustering tijdens de inferentie wordt toegepast, bestrijkt één getraind model de kwaliteit-efficiëntiecurve zonder opnieuw te trainen. ZipSplat werkt zonder grondwaarheidposen of intrinsieke parameters, maar zet een nieuwe state-of-the-art neer op DL3DV en RealEstate10K met ~6 keer minder Gaussians dan pixel-uitgelijnde methoden, en overtreft de beste pose-loze basislijn met respectievelijk 2,1 dB en 1,2 dB PSNR. Verder generaliseert het zero-shot naar Mip-NeRF360 en ScanNet++, en presteert het beter dan alle vergelijkbare basislijnen. Onze projectpagina vindt u op {https://veichta.com/zipsplat}.

English

Feed-forward 3D Gaussian Splatting methods reconstruct a scene from posed or pose-free images in a single forward pass, yet current approaches predict one Gaussian per input pixel, tying the representation budget to camera resolution rather than scene complexity. A flat wall and a richly textured object thus produce equally many Gaussians despite very different geometric needs. We propose ZipSplat, a token-based feed-forward model that decouples Gaussian placement from the pixel grid. A multi-view backbone extracts dense visual tokens, and k-means clustering compresses them into a compact set of scene tokens. Cross- and self-attention refine these tokens, and a lightweight MLP decodes each into a group of Gaussians with unconstrained 3D positions. Because clustering is applied at inference, a single trained model spans the quality-efficiency curve without retraining. ZipSplat operates without ground-truth poses or intrinsics, yet sets a new state of the art on DL3DV and RealEstate10K with {sim}6{times} fewer Gaussians than pixel-aligned methods, surpassing the best pose-free baseline by 2.1dB and 1.2dB PSNR, respectively. It further generalizes zero-shot to Mip-NeRF360 and ScanNet++, outperforming all comparable baselines. Our project page is at {https://veichta.com/zipsplat{https://veichta.com/zipsplat}}.