2Xplat:専門家二人は一人のジェネリストに勝る
2Xplat: Two Experts Are Better Than One Generalist
March 22, 2026
著者: Hwasik Jeong, Seungryong Lee, Gyeongjin Kang, Seungkwon Yang, Xiangyu Sun, Seungtae Nam, Eunbyung Park
cs.AI
要旨
ポーズフリーのフィードフォワード型3Dガウススプラッティング(3DGS)は、較正されていないマルチビュー画像から単一のフォワードパスで高品質なガウス表現を生成することを可能にし、迅速な3Dモデリングの新たな領域を開拓した。この分野における主流のアプローチは、幾何学中心の3D基盤モデル上に構築された統一的なモノリシック構造を採用し、単一のネットワーク内でカメラポーズの推定と3DGS表現の合成を同時に行う。構造的には合理化されているものの、このような「オールインワン」設計は、幾何学的推論と見た目のモデリングを共有表現内で絡み合わせるため、高精細な3DGS生成には最適ではない可能性がある。本研究では、幾何学推定とガウス生成を明示的に分離した2エキスパート設計に基づくポーズフリーのフィードフォワード型3DGSフレームワーク「2Xplat」を提案する。専用の幾何学エキスパートが最初にカメラポーズを予測し、その結果が明示的に強力な見た目エキスパートに渡され、3Dガウシアンが合成される。概念的には単純であり、先行研究ではほとんど検討されていなかったが、提案手法は非常に効果的であることが実証された。5,000回未満の学習イテレーションで、提案する2エキスパートパイプラインは、従来のポーズフリーのフィードフォワード型3DGSアプローチを大幅に上回り、最先端のポーズ既知手法と同等の性能を達成した。これらの結果は、主流の統一パラダイムに疑問を投げかけ、複雑な3D幾何学推定と見た目合成タスクにおけるモジュール設計原則の潜在的な利点を示唆している。
English
Pose-free feed-forward 3D Gaussian Splatting (3DGS) has opened a new frontier for rapid 3D modeling, enabling high-quality Gaussian representations to be generated from uncalibrated multi-view images in a single forward pass. The dominant approach in this space adopts unified monolithic architectures, often built on geometry-centric 3D foundation models, to jointly estimate camera poses and synthesize 3DGS representations within a single network. While architecturally streamlined, such "all-in-one" designs may be suboptimal for high-fidelity 3DGS generation, as they entangle geometric reasoning and appearance modeling within a shared representation. In this work, we introduce 2Xplat, a pose-free feed-forward 3DGS framework based on a two-expert design that explicitly separates geometry estimation from Gaussian generation. A dedicated geometry expert first predicts camera poses, which are then explicitly passed to a powerful appearance expert that synthesizes 3D Gaussians. Despite its conceptual simplicity, being largely underexplored in prior works, the proposed approach proves highly effective. In fewer than 5K training iterations, the proposed two-experts pipeline substantially outperforms prior pose-free feed-forward 3DGS approaches and achieves performance on par with state-of-the-art posed methods. These results challenge the prevailing unified paradigm and suggest the potential advantages of modular design principles for complex 3D geometric estimation and appearance synthesis tasks.