Modelo de Percepción 3D Continua con Estado Persistente
Continuous 3D Perception Model with Persistent State
January 21, 2025
Autores: Qianqian Wang, Yifei Zhang, Aleksander Holynski, Alexei A. Efros, Angjoo Kanazawa
cs.AI
Resumen
Presentamos un marco unificado capaz de resolver una amplia gama de tareas en 3D. Nuestro enfoque cuenta con un modelo recurrente con estado que actualiza continuamente su representación de estado con cada nueva observación. Dada una secuencia de imágenes, este estado en evolución puede utilizarse para generar mapas de puntos a escala métrica (puntos 3D por píxel) para cada nueva entrada de forma online. Estos mapas de puntos residen en un sistema de coordenadas común y pueden acumularse en una reconstrucción de escena densa y coherente que se actualiza a medida que llegan nuevas imágenes. Nuestro modelo, denominado CUT3R (Transformador de Actualización Continua para Reconstrucción 3D), captura ricos conocimientos previos de escenas del mundo real: no solo puede predecir mapas de puntos precisos a partir de observaciones de imágenes, sino que también puede inferir regiones no vistas de la escena explorando vistas virtuales no observadas. Nuestro método es simple pero altamente flexible, aceptando naturalmente longitudes variables de imágenes que pueden ser tanto secuencias de video como colecciones de fotos desordenadas, que contienen contenido estático y dinámico. Evaluamos nuestro método en varias tareas 3D/4D y demostramos un rendimiento competitivo o de vanguardia en cada una. Página del Proyecto: https://cut3r.github.io/
English
We present a unified framework capable of solving a broad range of 3D tasks.
Our approach features a stateful recurrent model that continuously updates its
state representation with each new observation. Given a stream of images, this
evolving state can be used to generate metric-scale pointmaps (per-pixel 3D
points) for each new input in an online fashion. These pointmaps reside within
a common coordinate system, and can be accumulated into a coherent, dense scene
reconstruction that updates as new images arrive. Our model, called CUT3R
(Continuous Updating Transformer for 3D Reconstruction), captures rich priors
of real-world scenes: not only can it predict accurate pointmaps from image
observations, but it can also infer unseen regions of the scene by probing at
virtual, unobserved views. Our method is simple yet highly flexible, naturally
accepting varying lengths of images that may be either video streams or
unordered photo collections, containing both static and dynamic content. We
evaluate our method on various 3D/4D tasks and demonstrate competitive or
state-of-the-art performance in each. Project Page: https://cut3r.github.io/Summary
AI-Generated Summary