ChatPaper.aiChatPaper

StreamSplat: Rumo à Reconstrução 3D Dinâmica Online a partir de Fluxos de Vídeo Não Calibrados

StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams

June 10, 2025
Autores: Zike Wu, Qi Yan, Xuanyu Yi, Lele Wang, Renjie Liao
cs.AI

Resumo

A reconstrução em tempo real de cenas 3D dinâmicas a partir de fluxos de vídeo não calibrados é crucial para inúmeras aplicações do mundo real. No entanto, os métodos existentes lutam para abordar conjuntamente três desafios principais: 1) processar entradas não calibradas em tempo real, 2) modelar com precisão a evolução dinâmica da cena e 3) manter estabilidade a longo prazo e eficiência computacional. Para isso, apresentamos o StreamSplat, o primeiro framework totalmente feed-forward que transforma fluxos de vídeo não calibrados de comprimento arbitrário em representações dinâmicas de 3D Gaussian Splatting (3DGS) de maneira online, capaz de recuperar a dinâmica da cena a partir de observações temporais locais. Propomos duas inovações técnicas principais: um mecanismo de amostragem probabilística no codificador estático para previsão de posição 3DGS e um campo de deformação bidirecional no decodificador dinâmico que permite uma modelagem dinâmica robusta e eficiente. Experimentos extensos em benchmarks estáticos e dinâmicos demonstram que o StreamSplat supera consistentemente trabalhos anteriores tanto na qualidade de reconstrução quanto na modelagem de cenas dinâmicas, enquanto suporta exclusivamente a reconstrução online de fluxos de vídeo de comprimento arbitrário. O código e os modelos estão disponíveis em https://github.com/nickwzk/StreamSplat.
English
Real-time reconstruction of dynamic 3D scenes from uncalibrated video streams is crucial for numerous real-world applications. However, existing methods struggle to jointly address three key challenges: 1) processing uncalibrated inputs in real time, 2) accurately modeling dynamic scene evolution, and 3) maintaining long-term stability and computational efficiency. To this end, we introduce StreamSplat, the first fully feed-forward framework that transforms uncalibrated video streams of arbitrary length into dynamic 3D Gaussian Splatting (3DGS) representations in an online manner, capable of recovering scene dynamics from temporally local observations. We propose two key technical innovations: a probabilistic sampling mechanism in the static encoder for 3DGS position prediction, and a bidirectional deformation field in the dynamic decoder that enables robust and efficient dynamic modeling. Extensive experiments on static and dynamic benchmarks demonstrate that StreamSplat consistently outperforms prior works in both reconstruction quality and dynamic scene modeling, while uniquely supporting online reconstruction of arbitrarily long video streams. Code and models are available at https://github.com/nickwzk/StreamSplat.
PDF02June 13, 2025