2Xplat: Два специалиста лучше одного универсала

Аннотация

Метод Pose-free feed-forward 3D Gaussian Splatting (3DGS) открыл новое направление для быстрого 3D-моделирования, позволяя генерировать высококачественные гауссовы представления по неоткалиброванным многовидовым изображениям за один прямой проход. Доминирующий подход в этой области использует унифицированные монолитные архитектуры, часто построенные на геометрически-ориентированных 3D-фундаментальных моделях, для совместного оценивания поз камер и синтеза 3DGS-представлений в рамках единой сети. Несмотря на архитектурную простоту, такие «все-в-одном» конструкции могут быть неоптимальными для генерации высокоточной 3DGS, поскольку они переплетают геометрические рассуждения и моделирование внешнего вида в рамках общего представления. В данной работе мы представляем 2Xplat — фреймворк pose-free feed-forward 3DGS, основанный на схеме с двумя экспертами, которая явно разделяет оценивание геометрии и генерацию гауссовых представлений. Специализированный эксперт по геометрии сначала предсказывает позы камер, которые затем явно передаются мощному эксперту по внешнему виду, синтезирующему 3D-гауссовы объекты. Несмотря на концептуальную простоту, которая ранее практически не исследовалась, предложенный подход демонстрирует высокую эффективность. Менее чем за 5 тысяч итераций обучения предложенный конвейер с двумя экспертами существенно превосходит предыдущие подходы pose-free feed-forward 3DGS и достигает производительности на уровне современных методов с известными позами. Эти результаты ставят под сомнение преобладающую унифицированную парадигму и указывают на потенциальные преимущества модульных принципов проектирования для сложных задач геометрического оценивания и синтеза внешнего вида.

English

Pose-free feed-forward 3D Gaussian Splatting (3DGS) has opened a new frontier for rapid 3D modeling, enabling high-quality Gaussian representations to be generated from uncalibrated multi-view images in a single forward pass. The dominant approach in this space adopts unified monolithic architectures, often built on geometry-centric 3D foundation models, to jointly estimate camera poses and synthesize 3DGS representations within a single network. While architecturally streamlined, such "all-in-one" designs may be suboptimal for high-fidelity 3DGS generation, as they entangle geometric reasoning and appearance modeling within a shared representation. In this work, we introduce 2Xplat, a pose-free feed-forward 3DGS framework based on a two-expert design that explicitly separates geometry estimation from Gaussian generation. A dedicated geometry expert first predicts camera poses, which are then explicitly passed to a powerful appearance expert that synthesizes 3D Gaussians. Despite its conceptual simplicity, being largely underexplored in prior works, the proposed approach proves highly effective. In fewer than 5K training iterations, the proposed two-experts pipeline substantially outperforms prior pose-free feed-forward 3DGS approaches and achieves performance on par with state-of-the-art posed methods. These results challenge the prevailing unified paradigm and suggest the potential advantages of modular design principles for complex 3D geometric estimation and appearance synthesis tasks.

2Xplat: Два специалиста лучше одного универсала

2Xplat: Two Experts Are Better Than One Generalist

Аннотация

Support