2Xplat: Due esperti valgono più di un generalista

Abstract

Il Gaussian Splatting 3D (3DGS) feed-forward senza pose ha aperto una nuova frontiera per la modellazione 3D rapida, consentendo la generazione di rappresentazioni gaussiane di alta qualità da immagini multi-vista non calibrate in un singolo passaggio in avanti. L'approccio dominante in questo ambito adotta architetture monolitiche unificate, spesso basate su modelli fondazionali 3D incentrati sulla geometria, per stimare congiuntamente le pose della camera e sintetizzare le rappresentazioni 3DGS all'interno di una singola rete. Sebbene architetturalmente semplificati, tali design "tutto-in-uno" possono essere subottimali per la generazione di 3DGS ad alta fedeltà, poiché intrecciano il ragionamento geometrico e la modellazione dell'aspetto all'interno di una rappresentazione condivisa. In questo lavoro, introduciamo 2Xplat, un framework 3DGS feed-forward senza pose basato su un design a due esperti che separa esplicitamente la stima geometrica dalla generazione gaussiana. Un esperto di geometria dedicato predice inizialmente le pose della camera, che vengono poi esplicitamente passate a un potente esperto dell'aspetto che sintetizza i Gaussian 3D. Nonostante la sua semplicità concettuale, largamente inesplorata nei lavori precedenti, l'approccio proposto si rivela altamente efficace. In meno di 5.000 iterazioni di addestramento, la pipeline proposta a due esperti supera sostanzialmente i precedenti approcci 3DGS feed-forward senza pose e raggiunge prestazioni pari a quelle dei metodi all'avanguardia che utilizzano pose note. Questi risultati sfidano il paradigma unificato prevalente e suggeriscono i potenziali vantaggi dei principi di design modulare per compiti complessi di stima geometrica 3D e sintesi dell'aspetto.

English

Pose-free feed-forward 3D Gaussian Splatting (3DGS) has opened a new frontier for rapid 3D modeling, enabling high-quality Gaussian representations to be generated from uncalibrated multi-view images in a single forward pass. The dominant approach in this space adopts unified monolithic architectures, often built on geometry-centric 3D foundation models, to jointly estimate camera poses and synthesize 3DGS representations within a single network. While architecturally streamlined, such "all-in-one" designs may be suboptimal for high-fidelity 3DGS generation, as they entangle geometric reasoning and appearance modeling within a shared representation. In this work, we introduce 2Xplat, a pose-free feed-forward 3DGS framework based on a two-expert design that explicitly separates geometry estimation from Gaussian generation. A dedicated geometry expert first predicts camera poses, which are then explicitly passed to a powerful appearance expert that synthesizes 3D Gaussians. Despite its conceptual simplicity, being largely underexplored in prior works, the proposed approach proves highly effective. In fewer than 5K training iterations, the proposed two-experts pipeline substantially outperforms prior pose-free feed-forward 3DGS approaches and achieves performance on par with state-of-the-art posed methods. These results challenge the prevailing unified paradigm and suggest the potential advantages of modular design principles for complex 3D geometric estimation and appearance synthesis tasks.

2Xplat: Due esperti valgono più di un generalista

2Xplat: Two Experts Are Better Than One Generalist

Abstract

Support