2Xplat: Dos Expertos Son Mejores Que Un Generalista

Resumen

El método de proyección de Gaussianos 3D (3DGS) libre de poses y de avance directo ha abierto una nueva frontera para el modelado 3D rápido, permitiendo generar representaciones Gaussianas de alta calidad a partir de imágenes multivista no calibradas en una sola pasada hacia adelante. El enfoque dominante en este ámbito adopta arquitecturas monolíticas unificadas, a menudo basadas en modelos fundamentales 3D centrados en la geometría, para estimar conjuntamente las poses de la cámara y sintetizar representaciones 3DGS dentro de una única red. Aunque arquitectónicamente simplificados, estos diseños "todo en uno" pueden ser subóptimos para la generación de 3DGS de alta fidelidad, ya que entrelazan el razonamiento geométrico y el modelado de apariencia dentro de una representación compartida. En este trabajo, presentamos 2Xplat, un marco de 3DGS de avance directo y libre de poses basado en un diseño de dos expertos que separa explícitamente la estimación geométrica de la generación de Gaussianos. Un experto en geometría dedicado predice primero las poses de la cámara, las cuales se pasan explícitamente a un potente experto en apariencia que sintetiza los Gaussianos 3D. A pesar de su simplicidad conceptual, y de haber sido escasamente explorado en trabajos previos, el enfoque propuesto resulta altamente efectivo. En menos de 5.000 iteraciones de entrenamiento, la canalización propuesta de dos expertos supera sustancialmente a los enfoques previos de 3DGS de avance directo y libre de poses y logra un rendimiento a la par con los métodos de vanguardia que requieren poses. Estos resultados desafían el paradigma unificado predominante y sugieren las ventajas potenciales de los principios de diseño modular para tareas complejas de estimación geométrica 3D y síntesis de apariencia.

English

Pose-free feed-forward 3D Gaussian Splatting (3DGS) has opened a new frontier for rapid 3D modeling, enabling high-quality Gaussian representations to be generated from uncalibrated multi-view images in a single forward pass. The dominant approach in this space adopts unified monolithic architectures, often built on geometry-centric 3D foundation models, to jointly estimate camera poses and synthesize 3DGS representations within a single network. While architecturally streamlined, such "all-in-one" designs may be suboptimal for high-fidelity 3DGS generation, as they entangle geometric reasoning and appearance modeling within a shared representation. In this work, we introduce 2Xplat, a pose-free feed-forward 3DGS framework based on a two-expert design that explicitly separates geometry estimation from Gaussian generation. A dedicated geometry expert first predicts camera poses, which are then explicitly passed to a powerful appearance expert that synthesizes 3D Gaussians. Despite its conceptual simplicity, being largely underexplored in prior works, the proposed approach proves highly effective. In fewer than 5K training iterations, the proposed two-experts pipeline substantially outperforms prior pose-free feed-forward 3DGS approaches and achieves performance on par with state-of-the-art posed methods. These results challenge the prevailing unified paradigm and suggest the potential advantages of modular design principles for complex 3D geometric estimation and appearance synthesis tasks.

2Xplat: Dos Expertos Son Mejores Que Un Generalista

2Xplat: Two Experts Are Better Than One Generalist

Resumen

Support