LongSplat: Esquematización Robusta con Gaussianos 3D sin Posar para Vídeos Largos Casuales
LongSplat: Robust Unposed 3D Gaussian Splatting for Casual Long Videos
August 19, 2025
Autores: Chin-Yang Lin, Cheng Sun, Fu-En Yang, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu
cs.AI
Resumen
LongSplat aborda desafíos críticos en la síntesis de nuevas vistas (NVS, por sus siglas en inglés) a partir de videos largos capturados de manera casual, caracterizados por movimientos irregulares de la cámara, poses desconocidas de la cámara y escenas expansivas. Los métodos actuales suelen sufrir de deriva en las poses, inicialización geométrica imprecisa y limitaciones severas de memoria. Para resolver estos problemas, presentamos LongSplat, un marco robusto de 3D Gaussian Splatting sin poses que incluye: (1) Optimización Conjunta Incremental que optimiza simultáneamente las poses de la cámara y los Gaussianos 3D para evitar mínimos locales y garantizar consistencia global; (2) un Módulo de Estimación de Poses Robusto que aprovecha priores 3D aprendidos; y (3) un mecanismo eficiente de Formación de Anclajes Octree que convierte nubes de puntos densas en anclajes basados en la densidad espacial. Experimentos exhaustivos en benchmarks desafiantes demuestran que LongSplat logra resultados de vanguardia, mejorando sustancialmente la calidad de renderizado, la precisión de las poses y la eficiencia computacional en comparación con enfoques anteriores. Página del proyecto: https://linjohnss.github.io/longsplat/
English
LongSplat addresses critical challenges in novel view synthesis (NVS) from
casually captured long videos characterized by irregular camera motion, unknown
camera poses, and expansive scenes. Current methods often suffer from pose
drift, inaccurate geometry initialization, and severe memory limitations. To
address these issues, we introduce LongSplat, a robust unposed 3D Gaussian
Splatting framework featuring: (1) Incremental Joint Optimization that
concurrently optimizes camera poses and 3D Gaussians to avoid local minima and
ensure global consistency; (2) a robust Pose Estimation Module leveraging
learned 3D priors; and (3) an efficient Octree Anchor Formation mechanism that
converts dense point clouds into anchors based on spatial density. Extensive
experiments on challenging benchmarks demonstrate that LongSplat achieves
state-of-the-art results, substantially improving rendering quality, pose
accuracy, and computational efficiency compared to prior approaches. Project
page: https://linjohnss.github.io/longsplat/