2Xplat: 두 명의 전문가가 한 명의 다능인보다 뛰어나다
2Xplat: Two Experts Are Better Than One Generalist
March 22, 2026
저자: Hwasik Jeong, Seungryong Lee, Gyeongjin Kang, Seungkwon Yang, Xiangyu Sun, Seungtae Nam, Eunbyung Park
cs.AI
초록
포즈 프리 피드포워드 3D 가우시안 스플래팅(3DGS)은 보정되지 않은 다중 뷰 이미지로부터 단일 순전파만으로 고품질 가우시안 표현을 생성할 수 있게 함으로써 빠른 3D 모델링의 새로운 지평을 열었습니다. 이 분야의 주류 접근법은 기하학 중심 3D 파운데이션 모델을 기반으로 하는 통합된 단일 아키텍처를 채택하여 단일 네트워크 내에서 카메라 포즈 추정과 3DGS 표현 생성을 공동으로 수행합니다. 구조적으로는 간소화되었지만, 이러한 "올인원" 설계는 기하학적 추론과 외관 모델링을 공유 표현 내에서 얽히게 하므로 고충실도 3DGS 생성에는 최적이 아닐 수 있습니다. 본 연구에서는 기하학 추정과 가우시안 생성을 명시적으로 분리하는 두 전문가 설계를 기반으로 한 포즈 프리 피드포워드 3DGS 프레임워크인 2Xplat를 소개합니다. 전용 기하학 전문가가 먼저 카메라 포즈를 예측한 다음, 이 포즈를 명시적으로 3D 가우시안을 합성하는 강력한 외관 전문가에게 전달합니다. 개념적으로 단순하고 기존 연구에서 크게 탐구되지 않았음에도 불구하고, 제안된 접근법은 매우 효과적인 것으로 입증되었습니다. 5,000회 미만의 학습 반복으로 제안된 두 전문가 파이프라인은 기존 포즈 프리 피드포워드 3DGS 접근법을 크게 능가하며 최신 포즈 기반 방법과 동등한 성능을 달성합니다. 이러한 결과는 기존의 통합 패러다임에 의문을 제기하고, 복잡한 3D 기하학적 추정 및 외관 합성 작업을 위한 모듈식 설계 원칙의 잠재적 이점을 시사합니다.
English
Pose-free feed-forward 3D Gaussian Splatting (3DGS) has opened a new frontier for rapid 3D modeling, enabling high-quality Gaussian representations to be generated from uncalibrated multi-view images in a single forward pass. The dominant approach in this space adopts unified monolithic architectures, often built on geometry-centric 3D foundation models, to jointly estimate camera poses and synthesize 3DGS representations within a single network. While architecturally streamlined, such "all-in-one" designs may be suboptimal for high-fidelity 3DGS generation, as they entangle geometric reasoning and appearance modeling within a shared representation. In this work, we introduce 2Xplat, a pose-free feed-forward 3DGS framework based on a two-expert design that explicitly separates geometry estimation from Gaussian generation. A dedicated geometry expert first predicts camera poses, which are then explicitly passed to a powerful appearance expert that synthesizes 3D Gaussians. Despite its conceptual simplicity, being largely underexplored in prior works, the proposed approach proves highly effective. In fewer than 5K training iterations, the proposed two-experts pipeline substantially outperforms prior pose-free feed-forward 3DGS approaches and achieves performance on par with state-of-the-art posed methods. These results challenge the prevailing unified paradigm and suggest the potential advantages of modular design principles for complex 3D geometric estimation and appearance synthesis tasks.