2Xplat: Dois Especialistas São Melhores que Um Generalista

Resumo

O 3D Gaussian Splatting (3DGS) *feed-forward* livre de poses abriu uma nova fronteira para a modelagem 3D rápida, permitindo que representações Gaussianas de alta qualidade sejam geradas a partir de imagens de múltiplas vistas não calibradas em uma única passagem direta. A abordagem dominante neste espaço adota arquiteturas monolíticas unificadas, frequentemente construídas sobre modelos fundamentais 3D centrados na geometria, para estimar conjuntamente as poses da câmera e sintetizar representações 3DGS dentro de uma única rede. Embora arquitetonicamente simplificados, tais projetos "tudo-em-um" podem ser subótimos para a geração de 3DGS de alta fidelidade, uma vez que eles entrelaçam o raciocínio geométrico e a modelagem de aparência dentro de uma representação compartilhada. Neste trabalho, introduzimos o 2Xplat, um framework 3DGS *feed-forward* livre de poses baseado em um design de dois especialistas que separa explicitamente a estimativa de geometria da geração Gaussiana. Um especialista em geometria dedicado primeiro prevê as poses da câmera, que são então explicitamente passadas para um poderoso especialista em aparência que sintetiza os Gaussianos 3D. Apesar de sua simplicidade conceitual, sendo largamente inexplorada em trabalhos anteriores, a abordagem proposta mostra-se altamente eficaz. Em menos de 5.000 iterações de treinamento, o *pipeline* proposto de dois especialistas supera substancialmente as abordagens anteriores de 3DGS *feed-forward* livre de poses e alcança um desempenho equivalente ao dos métodos state-of-the-art que utilizam poses. Estes resultados desafiam o paradigma unificado predominante e sugerem as vantagens potenciais dos princípios de design modular para tarefas complexas de estimativa geométrica 3D e síntese de aparência.

English

Pose-free feed-forward 3D Gaussian Splatting (3DGS) has opened a new frontier for rapid 3D modeling, enabling high-quality Gaussian representations to be generated from uncalibrated multi-view images in a single forward pass. The dominant approach in this space adopts unified monolithic architectures, often built on geometry-centric 3D foundation models, to jointly estimate camera poses and synthesize 3DGS representations within a single network. While architecturally streamlined, such "all-in-one" designs may be suboptimal for high-fidelity 3DGS generation, as they entangle geometric reasoning and appearance modeling within a shared representation. In this work, we introduce 2Xplat, a pose-free feed-forward 3DGS framework based on a two-expert design that explicitly separates geometry estimation from Gaussian generation. A dedicated geometry expert first predicts camera poses, which are then explicitly passed to a powerful appearance expert that synthesizes 3D Gaussians. Despite its conceptual simplicity, being largely underexplored in prior works, the proposed approach proves highly effective. In fewer than 5K training iterations, the proposed two-experts pipeline substantially outperforms prior pose-free feed-forward 3DGS approaches and achieves performance on par with state-of-the-art posed methods. These results challenge the prevailing unified paradigm and suggest the potential advantages of modular design principles for complex 3D geometric estimation and appearance synthesis tasks.