ChatPaper.aiChatPaper

ZipSplat: より少ないガウシアン、より良いスプラット

ZipSplat: Fewer Gaussians, Better Splats

June 3, 2026
著者: Alexander Veicht, Sunghwan Hong, Dániel Baráth, Marc Pollefeys
cs.AI

要旨

フィードフォワード型3Dガウシアンスプラッティング手法は、ポーズ付きまたはポーズなしの画像から単一のフォワードパスでシーンを再構成するが、現行のアプローチでは入力画素ごとに一つのガウシアンを予測するため、表現の予算がシーンの複雑さではなくカメラ解像度に依存する。平らな壁と豊かなテクスチャを持つ物体は、幾何学的要件が大きく異なるにもかかわらず、同数のガウシアンを生成する。本稿では、ガウシアンの配置を画素グリッドから切り離す、トークンベースのフィードフォワードモデルであるZipSplatを提案する。マルチビューバックボーンが高密度の視覚トークンを抽出し、k-meansクラスタリングがそれらをコンパクトなシーントークンの集合に圧縮する。クロスアテンションとセルフアテンションがこれらのトークンを洗練し、軽量なMLPが各トークンを3D位置に制約のないガウシアングループにデコードする。クラスタリングを推論時に適用するため、単一の学習済みモデルが再学習なしで品質と効率のトレードオフ曲線をカバーする。ZipSplatは正解ポーズや内部パラメータなしで動作するが、DL3DVおよびRealEstate10Kにおいて、画素対応手法よりも約6倍少ないガウシアンで新たな最先端を達成し、それぞれ最良のポーズフリーベースラインをPSNRで2.1dB、1.2dB上回る。さらに、Mip-NeRF360およびScanNet++に対してゼロショットで汎化し、全ての比較可能なベースラインを凌駕する。プロジェクトページはhttps://veichta.com/zipsplatである。
English
Feed-forward 3D Gaussian Splatting methods reconstruct a scene from posed or pose-free images in a single forward pass, yet current approaches predict one Gaussian per input pixel, tying the representation budget to camera resolution rather than scene complexity. A flat wall and a richly textured object thus produce equally many Gaussians despite very different geometric needs. We propose ZipSplat, a token-based feed-forward model that decouples Gaussian placement from the pixel grid. A multi-view backbone extracts dense visual tokens, and k-means clustering compresses them into a compact set of scene tokens. Cross- and self-attention refine these tokens, and a lightweight MLP decodes each into a group of Gaussians with unconstrained 3D positions. Because clustering is applied at inference, a single trained model spans the quality-efficiency curve without retraining. ZipSplat operates without ground-truth poses or intrinsics, yet sets a new state of the art on DL3DV and RealEstate10K with {sim}6{times} fewer Gaussians than pixel-aligned methods, surpassing the best pose-free baseline by 2.1dB and 1.2dB PSNR, respectively. It further generalizes zero-shot to Mip-NeRF360 and ScanNet++, outperforming all comparable baselines. Our project page is at {https://veichta.com/zipsplat{https://veichta.com/zipsplat}}.