2Xplat: Twee specialisten zijn beter dan één generalist

Samenvatting

Pose-vrije feed-forward 3D Gaussian Splatting (3DGS) heeft een nieuw tijdperk ingeluid voor snelle 3D-modellering, waardoor hoogwaardige Gauss-representaties gegenereerd kunnen worden uit ongekalibreerde multi-view beelden in een enkele voorwaartse passage. De dominante aanpak in dit veld maakt gebruik van uniforme monolithische architecturen, vaak gebaseerd op geometrie-gerichte 3D-foundationmodellen, om gezamenlijk cameraposes te schatten en 3DGS-representaties te synthetiseren binnen één enkel netwerk. Hoewel architecturaal gestroomlijnd, kunnen dergelijke 'alles-in-één'-ontwerpen suboptimaal zijn voor hoogfideliteit 3DGS-generatie, omdat ze geometrische redenering en uiterlijkmodellering verstrengelen binnen een gedeelde representatie. In dit werk introduceren we 2Xplat, een pose-vrij feed-forward 3DGS-raamwerk gebaseerd op een two-expert-ontwerp dat geometrieschatting expliciet scheidt van Gauss-generatie. Een toegewijde geometrie-expert voorspelt eerst de cameraposes, die vervolgens expliciet worden doorgegeven aan een krachtige uiterlijk-expert die de 3D Gaussians synthetiseert. Ondanks zijn conceptuele eenvoud, en grotendeels onontgonnen in eerdere werken, blijkt de voorgestelde aanpak zeer effectief. In minder dan 5K trainingsiteraties overtreft de voorgestelde two-experts-pijplijn substantieel eerdere pose-vrije feed-forward 3DGS-benaderingen en bereikt het prestaties die vergelijkbaar zijn met state-of-the-art pose-methoden. Deze resultaten tarten het heersende uniforme paradigma en suggereren de potentiële voordelen van modulaire ontwerpprincipes voor complexe 3D geometrische schattings- en uiterlijk synthetisatietaken.

English

Pose-free feed-forward 3D Gaussian Splatting (3DGS) has opened a new frontier for rapid 3D modeling, enabling high-quality Gaussian representations to be generated from uncalibrated multi-view images in a single forward pass. The dominant approach in this space adopts unified monolithic architectures, often built on geometry-centric 3D foundation models, to jointly estimate camera poses and synthesize 3DGS representations within a single network. While architecturally streamlined, such "all-in-one" designs may be suboptimal for high-fidelity 3DGS generation, as they entangle geometric reasoning and appearance modeling within a shared representation. In this work, we introduce 2Xplat, a pose-free feed-forward 3DGS framework based on a two-expert design that explicitly separates geometry estimation from Gaussian generation. A dedicated geometry expert first predicts camera poses, which are then explicitly passed to a powerful appearance expert that synthesizes 3D Gaussians. Despite its conceptual simplicity, being largely underexplored in prior works, the proposed approach proves highly effective. In fewer than 5K training iterations, the proposed two-experts pipeline substantially outperforms prior pose-free feed-forward 3DGS approaches and achieves performance on par with state-of-the-art posed methods. These results challenge the prevailing unified paradigm and suggest the potential advantages of modular design principles for complex 3D geometric estimation and appearance synthesis tasks.

2Xplat: Twee specialisten zijn beter dan één generalist

2Xplat: Two Experts Are Better Than One Generalist

Samenvatting

Support