ChatPaper.aiChatPaper

StreamSplat: В направлении онлайн-реконструкции динамических 3D-сцен из некалиброванных видеопотоков

StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams

June 10, 2025
Авторы: Zike Wu, Qi Yan, Xuanyu Yi, Lele Wang, Renjie Liao
cs.AI

Аннотация

Реконструкция динамических 3D-сцен в реальном времени из некалиброванных видеопотоков имеет решающее значение для множества практических приложений. Однако существующие методы сталкиваются с трудностями в одновременном решении трех ключевых задач: 1) обработка некалиброванных входных данных в реальном времени, 2) точное моделирование эволюции динамических сцен и 3) поддержание долгосрочной стабильности и вычислительной эффективности. В связи с этим мы представляем StreamSplat — первую полностью прямую (feed-forward) систему, которая преобразует некалиброванные видеопотоки произвольной длины в динамические представления 3D Gaussian Splatting (3DGS) в режиме онлайн, способную восстанавливать динамику сцены на основе временно локальных наблюдений. Мы предлагаем два ключевых технических новшества: вероятностный механизм выборки в статическом кодировщике для предсказания позиций 3DGS и двунаправленное поле деформации в динамическом декодере, обеспечивающее надежное и эффективное моделирование динамики. Экстенсивные эксперименты на статических и динамических тестовых наборах демонстрируют, что StreamSplat стабильно превосходит предыдущие работы как по качеству реконструкции, так и по моделированию динамических сцен, при этом уникально поддерживая онлайн-реконструкцию видеопотоков произвольной длины. Код и модели доступны по адресу https://github.com/nickwzk/StreamSplat.
English
Real-time reconstruction of dynamic 3D scenes from uncalibrated video streams is crucial for numerous real-world applications. However, existing methods struggle to jointly address three key challenges: 1) processing uncalibrated inputs in real time, 2) accurately modeling dynamic scene evolution, and 3) maintaining long-term stability and computational efficiency. To this end, we introduce StreamSplat, the first fully feed-forward framework that transforms uncalibrated video streams of arbitrary length into dynamic 3D Gaussian Splatting (3DGS) representations in an online manner, capable of recovering scene dynamics from temporally local observations. We propose two key technical innovations: a probabilistic sampling mechanism in the static encoder for 3DGS position prediction, and a bidirectional deformation field in the dynamic decoder that enables robust and efficient dynamic modeling. Extensive experiments on static and dynamic benchmarks demonstrate that StreamSplat consistently outperforms prior works in both reconstruction quality and dynamic scene modeling, while uniquely supporting online reconstruction of arbitrarily long video streams. Code and models are available at https://github.com/nickwzk/StreamSplat.
PDF02June 13, 2025