StreamSplat : Vers la reconstruction dynamique 3D en temps réel à partir de flux vidéo non calibrés
StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams
June 10, 2025
Auteurs: Zike Wu, Qi Yan, Xuanyu Yi, Lele Wang, Renjie Liao
cs.AI
Résumé
La reconstruction en temps réel de scènes 3D dynamiques à partir de flux vidéo non calibrés est cruciale pour de nombreuses applications pratiques. Cependant, les méthodes existantes peinent à relever simultanément trois défis majeurs : 1) le traitement en temps réel d'entrées non calibrées, 2) la modélisation précise de l'évolution dynamique des scènes, et 3) le maintien de la stabilité à long terme et de l'efficacité computationnelle. Pour répondre à ces enjeux, nous présentons StreamSplat, le premier cadre entièrement feed-forward qui transforme des flux vidéo non calibrés de longueur arbitraire en représentations dynamiques de *3D Gaussian Splatting* (3DGS) de manière en ligne, capable de restituer la dynamique des scènes à partir d'observations temporelles locales. Nous proposons deux innovations techniques clés : un mécanisme d'échantillonnage probabiliste dans l'encodeur statique pour la prédiction des positions 3DGS, et un champ de déformation bidirectionnel dans le décodeur dynamique permettant une modélisation robuste et efficace des dynamiques. Des expérimentations approfondies sur des benchmarks statiques et dynamiques démontrent que StreamSplat surpasse systématiquement les travaux antérieurs en termes de qualité de reconstruction et de modélisation des scènes dynamiques, tout en supportant de manière unique la reconstruction en ligne de flux vidéo de longueur arbitraire. Le code et les modèles sont disponibles à l'adresse https://github.com/nickwzk/StreamSplat.
English
Real-time reconstruction of dynamic 3D scenes from uncalibrated video streams
is crucial for numerous real-world applications. However, existing methods
struggle to jointly address three key challenges: 1) processing uncalibrated
inputs in real time, 2) accurately modeling dynamic scene evolution, and 3)
maintaining long-term stability and computational efficiency. To this end, we
introduce StreamSplat, the first fully feed-forward framework that transforms
uncalibrated video streams of arbitrary length into dynamic 3D Gaussian
Splatting (3DGS) representations in an online manner, capable of recovering
scene dynamics from temporally local observations. We propose two key technical
innovations: a probabilistic sampling mechanism in the static encoder for 3DGS
position prediction, and a bidirectional deformation field in the dynamic
decoder that enables robust and efficient dynamic modeling. Extensive
experiments on static and dynamic benchmarks demonstrate that StreamSplat
consistently outperforms prior works in both reconstruction quality and dynamic
scene modeling, while uniquely supporting online reconstruction of arbitrarily
long video streams. Code and models are available at
https://github.com/nickwzk/StreamSplat.