2Xplat : Deux experts valent mieux qu'un généraliste

Résumé

La méthode de projection de gaussiennes 3D sans pose en passe avant (3DGS) a ouvert une nouvelle frontière pour la modélisation 3D rapide, permettant de générer des représentations gaussiennes de haute qualité à partir d'images multi-vues non calibrées en une seule passe avant. L'approche dominante dans ce domaine adopte des architectures monolithiques unifiées, souvent basées sur des modèles de fondation 3D centrés sur la géométrie, pour estimer conjointement les poses de caméra et synthétiser les représentations 3DGS au sein d'un seul réseau. Bien qu'architecturalement simplifiées, ces conceptions "tout-en-un" peuvent être sous-optimales pour la génération de 3DGS haute fidélité, car elles entremêlent le raisonnement géométrique et la modélisation de l'apparence dans une représentation partagée. Dans ce travail, nous présentons 2Xplat, un framework 3DGS sans pose en passe avant basé sur une conception à deux experts qui sépare explicitement l'estimation géométrique de la génération de gaussiennes. Un expert géométrie dédié prédit d'abord les poses de caméra, qui sont ensuite explicitement transmises à un puissant expert apparence qui synthétise les gaussiennes 3D. Malgré sa simplicité conceptuelle, largement inexplorée dans les travaux antérieurs, l'approche proposée s'avère très efficace. En moins de 5 000 itérations d'entraînement, notre pipeline à deux experts surpasse substantiellement les approches 3DGS sans pose en passe avant précédentes et atteint des performances comparables aux méthodes avec pose de pointe. Ces résultats remettent en question le paradigme unifié dominant et suggèrent les avantages potentiels des principes de conception modulaire pour les tâches complexes d'estimation géométrique 3D et de synthèse d'apparence.

English

Pose-free feed-forward 3D Gaussian Splatting (3DGS) has opened a new frontier for rapid 3D modeling, enabling high-quality Gaussian representations to be generated from uncalibrated multi-view images in a single forward pass. The dominant approach in this space adopts unified monolithic architectures, often built on geometry-centric 3D foundation models, to jointly estimate camera poses and synthesize 3DGS representations within a single network. While architecturally streamlined, such "all-in-one" designs may be suboptimal for high-fidelity 3DGS generation, as they entangle geometric reasoning and appearance modeling within a shared representation. In this work, we introduce 2Xplat, a pose-free feed-forward 3DGS framework based on a two-expert design that explicitly separates geometry estimation from Gaussian generation. A dedicated geometry expert first predicts camera poses, which are then explicitly passed to a powerful appearance expert that synthesizes 3D Gaussians. Despite its conceptual simplicity, being largely underexplored in prior works, the proposed approach proves highly effective. In fewer than 5K training iterations, the proposed two-experts pipeline substantially outperforms prior pose-free feed-forward 3DGS approaches and achieves performance on par with state-of-the-art posed methods. These results challenge the prevailing unified paradigm and suggest the potential advantages of modular design principles for complex 3D geometric estimation and appearance synthesis tasks.

2Xplat : Deux experts valent mieux qu'un généraliste

2Xplat: Two Experts Are Better Than One Generalist

Résumé

Support