ChatPaper.aiChatPaper

StreamSplat: Verso la Ricostruzione Dinamica 3D Online da Flussi Video Non Calibrati

StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams

June 10, 2025
Autori: Zike Wu, Qi Yan, Xuanyu Yi, Lele Wang, Renjie Liao
cs.AI

Abstract

La ricostruzione in tempo reale di scene 3D dinamiche da flussi video non calibrati è cruciale per numerose applicazioni nel mondo reale. Tuttavia, i metodi esistenti faticano a risolvere congiuntamente tre sfide chiave: 1) elaborare input non calibrati in tempo reale, 2) modellare accuratamente l'evoluzione dinamica della scena e 3) mantenere stabilità a lungo termine ed efficienza computazionale. A tal fine, introduciamo StreamSplat, il primo framework completamente feed-forward che trasforma flussi video non calibrati di lunghezza arbitraria in rappresentazioni dinamiche di 3D Gaussian Splatting (3DGS) in modo online, capace di recuperare la dinamica della scena da osservazioni temporali locali. Proponiamo due innovazioni tecniche chiave: un meccanismo di campionamento probabilistico nell'encoder statico per la previsione della posizione 3DGS e un campo di deformazione bidirezionale nel decoder dinamico che consente una modellazione dinamica robusta ed efficiente. Esperimenti estesi su benchmark statici e dinamici dimostrano che StreamSplat supera costantemente i lavori precedenti sia nella qualità della ricostruzione che nella modellazione di scene dinamiche, supportando in modo unico la ricostruzione online di flussi video di lunghezza arbitraria. Codice e modelli sono disponibili su https://github.com/nickwzk/StreamSplat.
English
Real-time reconstruction of dynamic 3D scenes from uncalibrated video streams is crucial for numerous real-world applications. However, existing methods struggle to jointly address three key challenges: 1) processing uncalibrated inputs in real time, 2) accurately modeling dynamic scene evolution, and 3) maintaining long-term stability and computational efficiency. To this end, we introduce StreamSplat, the first fully feed-forward framework that transforms uncalibrated video streams of arbitrary length into dynamic 3D Gaussian Splatting (3DGS) representations in an online manner, capable of recovering scene dynamics from temporally local observations. We propose two key technical innovations: a probabilistic sampling mechanism in the static encoder for 3DGS position prediction, and a bidirectional deformation field in the dynamic decoder that enables robust and efficient dynamic modeling. Extensive experiments on static and dynamic benchmarks demonstrate that StreamSplat consistently outperforms prior works in both reconstruction quality and dynamic scene modeling, while uniquely supporting online reconstruction of arbitrarily long video streams. Code and models are available at https://github.com/nickwzk/StreamSplat.
PDF02June 13, 2025