StreamSplat: Op weg naar online dynamische 3D-reconstructie vanuit ongekalibreerde videostreams
StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams
June 10, 2025
Auteurs: Zike Wu, Qi Yan, Xuanyu Yi, Lele Wang, Renjie Liao
cs.AI
Samenvatting
Real-time reconstructie van dynamische 3D-scènes uit ongekalibreerde videostreams
is cruciaal voor tal van real-world toepassingen. Bestaande methoden hebben echter
moeite om drie belangrijke uitdagingen tegelijkertijd aan te pakken: 1) het verwerken van ongekalibreerde
inputs in real time, 2) het nauwkeurig modelleren van dynamische scène-evolutie, en 3)
het behouden van langetermijnstabiliteit en rekenkundige efficiëntie. Daarom introduceren wij
StreamSplat, het eerste volledig feed-forward framework dat ongekalibreerde videostreams van willekeurige lengte
omzet in dynamische 3D Gaussian Splatting (3DGS) representaties op een online manier, in staat om
scènedynamiek te herstellen uit temporeel lokale observaties. Wij stellen twee belangrijke technische
innovaties voor: een probabilistisch samplingmechanisme in de statische encoder voor 3DGS
positievoorspelling, en een bidirectioneel vervormingsveld in de dynamische
decoder dat robuust en efficiënt dynamisch modelleren mogelijk maakt. Uitgebreide
experimenten op statische en dynamische benchmarks tonen aan dat StreamSplat
consistent beter presteert dan eerdere werken in zowel reconstructiekwaliteit als dynamisch
scènemodelleren, terwijl het uniek online reconstructie van willekeurig lange videostreams ondersteunt. Code en modellen zijn beschikbaar op
https://github.com/nickwzk/StreamSplat.
English
Real-time reconstruction of dynamic 3D scenes from uncalibrated video streams
is crucial for numerous real-world applications. However, existing methods
struggle to jointly address three key challenges: 1) processing uncalibrated
inputs in real time, 2) accurately modeling dynamic scene evolution, and 3)
maintaining long-term stability and computational efficiency. To this end, we
introduce StreamSplat, the first fully feed-forward framework that transforms
uncalibrated video streams of arbitrary length into dynamic 3D Gaussian
Splatting (3DGS) representations in an online manner, capable of recovering
scene dynamics from temporally local observations. We propose two key technical
innovations: a probabilistic sampling mechanism in the static encoder for 3DGS
position prediction, and a bidirectional deformation field in the dynamic
decoder that enables robust and efficient dynamic modeling. Extensive
experiments on static and dynamic benchmarks demonstrate that StreamSplat
consistently outperforms prior works in both reconstruction quality and dynamic
scene modeling, while uniquely supporting online reconstruction of arbitrarily
long video streams. Code and models are available at
https://github.com/nickwzk/StreamSplat.