ChatPaper.aiChatPaper

Modello di Percezione 3D Continua con Stato Persistente

Continuous 3D Perception Model with Persistent State

January 21, 2025
Autori: Qianqian Wang, Yifei Zhang, Aleksander Holynski, Alexei A. Efros, Angjoo Kanazawa
cs.AI

Abstract

Presentiamo un framework unificato in grado di risolvere una vasta gamma di compiti in 3D. Il nostro approccio prevede un modello ricorrente con stato che si aggiorna continuamente con ogni nuova osservazione. Dato un flusso di immagini, questo stato in evoluzione può essere utilizzato per generare mappe di punti su scala metrica (punti 3D per pixel) per ciascun nuovo input in modo online. Queste mappe di punti risiedono all'interno di un sistema di coordinate comune e possono essere accumulate in una ricostruzione della scena coerente e densa che si aggiorna man mano che arrivano nuove immagini. Il nostro modello, chiamato CUT3R (Transformer di Aggiornamento Continuo per la Ricostruzione 3D), cattura ricche conoscenze a priori delle scene del mondo reale: non solo può predire mappe di punti accurate dalle osservazioni delle immagini, ma può anche inferire regioni non viste della scena esplorando viste virtuali non osservate. Il nostro metodo è semplice ma altamente flessibile, accettando naturalmente lunghezze variabili di immagini che possono essere sia flussi video che raccolte di foto non ordinate, contenenti contenuti statici e dinamici. Valutiamo il nostro metodo su vari compiti 3D/4D e dimostriamo prestazioni competitive o all'avanguardia in ciascuno di essi. Pagina del Progetto: https://cut3r.github.io/
English
We present a unified framework capable of solving a broad range of 3D tasks. Our approach features a stateful recurrent model that continuously updates its state representation with each new observation. Given a stream of images, this evolving state can be used to generate metric-scale pointmaps (per-pixel 3D points) for each new input in an online fashion. These pointmaps reside within a common coordinate system, and can be accumulated into a coherent, dense scene reconstruction that updates as new images arrive. Our model, called CUT3R (Continuous Updating Transformer for 3D Reconstruction), captures rich priors of real-world scenes: not only can it predict accurate pointmaps from image observations, but it can also infer unseen regions of the scene by probing at virtual, unobserved views. Our method is simple yet highly flexible, naturally accepting varying lengths of images that may be either video streams or unordered photo collections, containing both static and dynamic content. We evaluate our method on various 3D/4D tasks and demonstrate competitive or state-of-the-art performance in each. Project Page: https://cut3r.github.io/

Summary

AI-Generated Summary

PDF42February 10, 2025