ChatPaper.aiChatPaper

StreamSplat: Hacia la reconstrucción dinámica 3D en línea a partir de flujos de video no calibrados

StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams

June 10, 2025
Autores: Zike Wu, Qi Yan, Xuanyu Yi, Lele Wang, Renjie Liao
cs.AI

Resumen

La reconstrucción en tiempo real de escenas 3D dinámicas a partir de flujos de video no calibrados es crucial para numerosas aplicaciones del mundo real. Sin embargo, los métodos existentes tienen dificultades para abordar conjuntamente tres desafíos clave: 1) procesar entradas no calibradas en tiempo real, 2) modelar con precisión la evolución dinámica de la escena, y 3) mantener la estabilidad a largo plazo y la eficiencia computacional. Con este fin, presentamos StreamSplat, el primer marco completamente de avance que transforma flujos de video no calibrados de longitud arbitraria en representaciones dinámicas de *Gaussian Splatting* 3D (3DGS) de manera en línea, capaz de recuperar la dinámica de la escena a partir de observaciones temporales locales. Proponemos dos innovaciones técnicas clave: un mecanismo de muestreo probabilístico en el codificador estático para la predicción de posiciones 3DGS, y un campo de deformación bidireccional en el decodificador dinámico que permite un modelado dinámico robusto y eficiente. Experimentos exhaustivos en benchmarks estáticos y dinámicos demuestran que StreamSplat supera consistentemente trabajos previos tanto en calidad de reconstrucción como en modelado de escenas dinámicas, mientras que, de manera única, soporta la reconstrucción en línea de flujos de video de longitud arbitraria. El código y los modelos están disponibles en https://github.com/nickwzk/StreamSplat.
English
Real-time reconstruction of dynamic 3D scenes from uncalibrated video streams is crucial for numerous real-world applications. However, existing methods struggle to jointly address three key challenges: 1) processing uncalibrated inputs in real time, 2) accurately modeling dynamic scene evolution, and 3) maintaining long-term stability and computational efficiency. To this end, we introduce StreamSplat, the first fully feed-forward framework that transforms uncalibrated video streams of arbitrary length into dynamic 3D Gaussian Splatting (3DGS) representations in an online manner, capable of recovering scene dynamics from temporally local observations. We propose two key technical innovations: a probabilistic sampling mechanism in the static encoder for 3DGS position prediction, and a bidirectional deformation field in the dynamic decoder that enables robust and efficient dynamic modeling. Extensive experiments on static and dynamic benchmarks demonstrate that StreamSplat consistently outperforms prior works in both reconstruction quality and dynamic scene modeling, while uniquely supporting online reconstruction of arbitrarily long video streams. Code and models are available at https://github.com/nickwzk/StreamSplat.
PDF02June 13, 2025