2Xplat: Zwei Experten sind besser als ein Generalist

Zusammenfassung

Pose-freies Feed-Forward 3D Gaussian Splatting (3DGS) hat eine neue Ära für die schnelle 3D-Modellierung eingeleitet, indem es ermöglicht, hochwertige Gauß-Darstellungen aus unkalibrierten Multiview-Bildern in einem einzigen Vorwärtsdurchlauf zu erzeugen. Der vorherrschende Ansatz in diesem Bereich verwendet vereinheitlichte, monolithische Architekturen, die oft auf geometriezentrierten 3D-Foundation-Modellen basieren, um Kameraposen und 3DGS-Repräsentationen gemeinsam in einem einzigen Netzwerk zu schätzen. Obwohl architektonisch straff, können solche "All-in-One"-Designs für die hochauflösende 3DGS-Erzeugung suboptimal sein, da sie geometrische Reasoning- und Erscheinungsmodellierung in einer gemeinsamen Repräsentation vermengen. In dieser Arbeit stellen wir 2Xplat vor, einen pose-freien Feed-Forward-3DGS-Rahmen, der auf einem Zwei-Experten-Design basiert und die Geometrieschätzung explizit von der Gauß-Erzeugung trennt. Ein spezieller Geometrie-Experte sagt zunächst die Kameraposen vorher, die dann explizit an einen leistungsstarken Erscheinungs-Experten übergeben werden, der die 3D-Gauß-Funktionen synthetisiert. Trotz seiner konzeptionellen Einfachheit, die in früheren Arbeiten weitgehend unerforscht blieb, erweist sich der vorgeschlagene Ansatz als hocheffektiv. In weniger als 5.000 Trainingsiterationen übertrifft die vorgeschlagene Zwei-Experten-Pipeline frühere pose-freie Feed-Forward-3DGS-Ansätze deutlich und erreicht eine Leistung, die mit state-of-the-art Methoden mit bekannten Posen vergleichbar ist. Diese Ergebnisse stellen das vorherrschende vereinheitlichte Paradigma in Frage und deuten auf die potenziellen Vorteile modularer Designprinzipien für komplexe Aufgaben der geometrischen Schätzung und Erscheinungssynthese in 3D hin.

English

Pose-free feed-forward 3D Gaussian Splatting (3DGS) has opened a new frontier for rapid 3D modeling, enabling high-quality Gaussian representations to be generated from uncalibrated multi-view images in a single forward pass. The dominant approach in this space adopts unified monolithic architectures, often built on geometry-centric 3D foundation models, to jointly estimate camera poses and synthesize 3DGS representations within a single network. While architecturally streamlined, such "all-in-one" designs may be suboptimal for high-fidelity 3DGS generation, as they entangle geometric reasoning and appearance modeling within a shared representation. In this work, we introduce 2Xplat, a pose-free feed-forward 3DGS framework based on a two-expert design that explicitly separates geometry estimation from Gaussian generation. A dedicated geometry expert first predicts camera poses, which are then explicitly passed to a powerful appearance expert that synthesizes 3D Gaussians. Despite its conceptual simplicity, being largely underexplored in prior works, the proposed approach proves highly effective. In fewer than 5K training iterations, the proposed two-experts pipeline substantially outperforms prior pose-free feed-forward 3DGS approaches and achieves performance on par with state-of-the-art posed methods. These results challenge the prevailing unified paradigm and suggest the potential advantages of modular design principles for complex 3D geometric estimation and appearance synthesis tasks.

2Xplat: Zwei Experten sind besser als ein Generalist

2Xplat: Two Experts Are Better Than One Generalist

Zusammenfassung

Support