Continue 3D Perceptiemodel met Persistente Status
Continuous 3D Perception Model with Persistent State
January 21, 2025
Auteurs: Qianqian Wang, Yifei Zhang, Aleksander Holynski, Alexei A. Efros, Angjoo Kanazawa
cs.AI
Samenvatting
We presenteren een verenigd kader dat in staat is om een breed scala aan 3D-taken op te lossen. Onze aanpak omvat een stateful recurrent model dat continu zijn statusrepresentatie bijwerkt met elke nieuwe observatie. Gegeven een stroom van afbeeldingen kan deze evoluerende status worden gebruikt om metrische schaal puntkaarten (per pixel 3D-punten) te genereren voor elke nieuwe invoer op een online manier. Deze puntkaarten bevinden zich binnen een gemeenschappelijk coördinatensysteem en kunnen worden opgebouwd tot een coherente, dichte scène reconstructie die wordt bijgewerkt naarmate er nieuwe afbeeldingen binnenkomen. Ons model, genaamd CUT3R (Continuous Updating Transformer for 3D Reconstruction), legt rijke aannames vast van echte scènes: het kan niet alleen nauwkeurige puntkaarten voorspellen vanuit beeldobservaties, maar het kan ook ongeziene regio's van de scène afleiden door te onderzoeken vanuit virtuele, onwaargenomen gezichtspunten. Onze methode is eenvoudig maar zeer flexibel en accepteert natuurlijk variabele lengtes van afbeeldingen die zowel videostreams als ongeordende fotocollecties kunnen zijn, met zowel statische als dynamische inhoud. We evalueren onze methode op verschillende 3D/4D-taken en tonen een concurrerende of toonaangevende prestatie in elk geval. Projectpagina: https://cut3r.github.io/
English
We present a unified framework capable of solving a broad range of 3D tasks.
Our approach features a stateful recurrent model that continuously updates its
state representation with each new observation. Given a stream of images, this
evolving state can be used to generate metric-scale pointmaps (per-pixel 3D
points) for each new input in an online fashion. These pointmaps reside within
a common coordinate system, and can be accumulated into a coherent, dense scene
reconstruction that updates as new images arrive. Our model, called CUT3R
(Continuous Updating Transformer for 3D Reconstruction), captures rich priors
of real-world scenes: not only can it predict accurate pointmaps from image
observations, but it can also infer unseen regions of the scene by probing at
virtual, unobserved views. Our method is simple yet highly flexible, naturally
accepting varying lengths of images that may be either video streams or
unordered photo collections, containing both static and dynamic content. We
evaluate our method on various 3D/4D tasks and demonstrate competitive or
state-of-the-art performance in each. Project Page: https://cut3r.github.io/