Непрерывная модель восприятия 3D с постоянным состоянием
Continuous 3D Perception Model with Persistent State
January 21, 2025
Авторы: Qianqian Wang, Yifei Zhang, Aleksander Holynski, Alexei A. Efros, Angjoo Kanazawa
cs.AI
Аннотация
Мы представляем унифицированную структуру, способную решать широкий спектр задач в трех измерениях. Наш подход включает состояний рекуррентную модель, которая непрерывно обновляет свое представление состояния с каждым новым наблюдением. Учитывая поток изображений, это развивающееся состояние может использоваться для создания метрических точечных карт (точки в 3D на пиксель) для каждого нового входа в режиме онлайн. Эти точечные карты находятся в общей системе координат и могут накапливаться в согласованную, плотную реконструкцию сцены, которая обновляется по мере поступления новых изображений. Наша модель, названная CUT3R (Continuous Updating Transformer for 3D Reconstruction), улавливает богатые априорные знания о реальных сценах: она не только может предсказывать точные точечные карты изображений, но также может выводить невидимые области сцены, исследуя виртуальные, не наблюдаемые виды. Наш метод простой, но очень гибкий, естественно принимает различные длины изображений, которые могут быть как видеопотоками, так и неупорядоченными коллекциями фотографий, содержащими как статический, так и динамический контент. Мы оцениваем наш метод на различных задачах в 3D/4D и демонстрируем конкурентоспособные или передовые результаты в каждой из них. Страница проекта: https://cut3r.github.io/
English
We present a unified framework capable of solving a broad range of 3D tasks.
Our approach features a stateful recurrent model that continuously updates its
state representation with each new observation. Given a stream of images, this
evolving state can be used to generate metric-scale pointmaps (per-pixel 3D
points) for each new input in an online fashion. These pointmaps reside within
a common coordinate system, and can be accumulated into a coherent, dense scene
reconstruction that updates as new images arrive. Our model, called CUT3R
(Continuous Updating Transformer for 3D Reconstruction), captures rich priors
of real-world scenes: not only can it predict accurate pointmaps from image
observations, but it can also infer unseen regions of the scene by probing at
virtual, unobserved views. Our method is simple yet highly flexible, naturally
accepting varying lengths of images that may be either video streams or
unordered photo collections, containing both static and dynamic content. We
evaluate our method on various 3D/4D tasks and demonstrate competitive or
state-of-the-art performance in each. Project Page: https://cut3r.github.io/Summary
AI-Generated Summary