LongSplat: Robuste 3D-Gaussian-Splatting für ungestellte lange Videos im Alltagskontext
LongSplat: Robust Unposed 3D Gaussian Splatting for Casual Long Videos
August 19, 2025
papers.authors: Chin-Yang Lin, Cheng Sun, Fu-En Yang, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu
cs.AI
papers.abstract
LongSplat adressiert kritische Herausforderungen bei der Synthese neuer Ansichten (Novel View Synthesis, NVS) aus beiläufig aufgenommenen langen Videos, die durch unregelmäßige Kamerabewegungen, unbekannte Kameraposen und weitläufige Szenen gekennzeichnet sind. Aktuelle Methoden leiden häufig unter Posen-Drift, ungenauer Geometrieinitialisierung und schwerwiegenden Speicherbeschränkungen. Um diese Probleme zu lösen, führen wir LongSplat ein, ein robustes Framework für unposierte 3D-Gaußsche Splatting, das folgende Merkmale aufweist: (1) Inkrementelle gemeinsame Optimierung, die gleichzeitig Kameraposen und 3D-Gaußsche optimiert, um lokale Minima zu vermeiden und globale Konsistenz sicherzustellen; (2) ein robustes Pose-Schätzungsmodul, das gelernte 3D-Prioritäten nutzt; und (3) einen effizienten Octree-Anker-Bildungsmechanismus, der dichte Punktwolken basierend auf der räumlichen Dichte in Anker umwandelt. Umfangreiche Experimente auf anspruchsvollen Benchmarks zeigen, dass LongSplat state-of-the-art Ergebnisse erzielt und die Renderqualität, die Genauigkeit der Posen und die Recheneffizienz im Vergleich zu früheren Ansätzen erheblich verbessert. Projektseite: https://linjohnss.github.io/longsplat/
English
LongSplat addresses critical challenges in novel view synthesis (NVS) from
casually captured long videos characterized by irregular camera motion, unknown
camera poses, and expansive scenes. Current methods often suffer from pose
drift, inaccurate geometry initialization, and severe memory limitations. To
address these issues, we introduce LongSplat, a robust unposed 3D Gaussian
Splatting framework featuring: (1) Incremental Joint Optimization that
concurrently optimizes camera poses and 3D Gaussians to avoid local minima and
ensure global consistency; (2) a robust Pose Estimation Module leveraging
learned 3D priors; and (3) an efficient Octree Anchor Formation mechanism that
converts dense point clouds into anchors based on spatial density. Extensive
experiments on challenging benchmarks demonstrate that LongSplat achieves
state-of-the-art results, substantially improving rendering quality, pose
accuracy, and computational efficiency compared to prior approaches. Project
page: https://linjohnss.github.io/longsplat/