Modèle de Perception 3D Continue avec État Persistant

Continuous 3D Perception Model with Persistent State

January 21, 2025
Auteurs: Qianqian Wang, Yifei Zhang, Aleksander Holynski, Alexei A. Efros, Angjoo Kanazawa
cs.AI

Résumé

Nous présentons un cadre unifié capable de résoudre un large éventail de tâches en 3D. Notre approche repose sur un modèle récurrent étatique qui met à jour en continu sa représentation d'état à chaque nouvelle observation. En utilisant un flux d'images, cet état évolutif peut être utilisé pour générer des cartes de points à l'échelle métrique (points 3D par pixel) pour chaque nouvelle entrée de manière en ligne. Ces cartes de points résident dans un système de coordonnées commun et peuvent être accumulées dans une reconstruction de scène dense et cohérente qui se met à jour à mesure que de nouvelles images arrivent. Notre modèle, appelé CUT3R (Transformateur de Mise à Jour Continue pour la Reconstruction 3D), capture de riches connaissances a priori des scènes du monde réel : non seulement il peut prédire des cartes de points précises à partir d'observations d'images, mais il peut également inférer des régions invisibles de la scène en explorant des vues virtuelles non observées. Notre méthode est simple mais très flexible, acceptant naturellement des longueurs variables d'images pouvant être soit des flux vidéo, soit des collections de photos non ordonnées, contenant à la fois du contenu statique et dynamique. Nous évaluons notre méthode sur diverses tâches 3D/4D et démontrons des performances compétitives ou de pointe dans chacune d'entre elles. Page du Projet : https://cut3r.github.io/
English
We present a unified framework capable of solving a broad range of 3D tasks. Our approach features a stateful recurrent model that continuously updates its state representation with each new observation. Given a stream of images, this evolving state can be used to generate metric-scale pointmaps (per-pixel 3D points) for each new input in an online fashion. These pointmaps reside within a common coordinate system, and can be accumulated into a coherent, dense scene reconstruction that updates as new images arrive. Our model, called CUT3R (Continuous Updating Transformer for 3D Reconstruction), captures rich priors of real-world scenes: not only can it predict accurate pointmaps from image observations, but it can also infer unseen regions of the scene by probing at virtual, unobserved views. Our method is simple yet highly flexible, naturally accepting varying lengths of images that may be either video streams or unordered photo collections, containing both static and dynamic content. We evaluate our method on various 3D/4D tasks and demonstrate competitive or state-of-the-art performance in each. Project Page: https://cut3r.github.io/

Summary

AI-Generated Summary

PDF42February 10, 2025