Ricostruzione delle Coordinate della Scena: Posizionamento di Collezioni di Immagini tramite Apprendimento Incrementale di un Rilocalizzatore
Scene Coordinate Reconstruction: Posing of Image Collections via Incremental Learning of a Relocalizer
April 22, 2024
Autori: Eric Brachmann, Jamie Wynn, Shuai Chen, Tommaso Cavallari, Áron Monszpart, Daniyar Turmukhambetov, Victor Adrian Prisacariu
cs.AI
Abstract
Affrontiamo il compito di stimare i parametri della fotocamera da un insieme di immagini che rappresentano una scena. I popolari strumenti di struttura da movimento (SfM) basati su caratteristiche risolvono questo compito mediante ricostruzione incrementale: ripetono la triangolazione di punti 3D sparsi e la registrazione di ulteriori viste della fotocamera alla nuvola di punti sparsi. Reinterpretiamo la struttura da movimento incrementale come un'applicazione iterata e un affinamento di un relocalizzatore visivo, ovvero di un metodo che registra nuove viste allo stato attuale della ricostruzione. Questa prospettiva ci permette di investigare relocalizzatori visivi alternativi che non si basano sull'abbinamento di caratteristiche locali. Dimostriamo che la regressione delle coordinate della scena, un approccio di relocalizzazione basato sull'apprendimento, ci consente di costruire rappresentazioni neurali implicite della scena da immagini non posizionate. A differenza di altri metodi di ricostruzione basati sull'apprendimento, non richiediamo priorità di posa né input sequenziali, e ottimizziamo in modo efficiente su migliaia di immagini. Il nostro metodo, ACE0 (ACE Zero), stima le pose della fotocamera con una precisione comparabile a quella dell'SfM basato su caratteristiche, come dimostrato dalla sintesi di nuove viste. Pagina del progetto: https://nianticlabs.github.io/acezero/
English
We address the task of estimating camera parameters from a set of images
depicting a scene. Popular feature-based structure-from-motion (SfM) tools
solve this task by incremental reconstruction: they repeat triangulation of
sparse 3D points and registration of more camera views to the sparse point
cloud. We re-interpret incremental structure-from-motion as an iterated
application and refinement of a visual relocalizer, that is, of a method that
registers new views to the current state of the reconstruction. This
perspective allows us to investigate alternative visual relocalizers that are
not rooted in local feature matching. We show that scene coordinate regression,
a learning-based relocalization approach, allows us to build implicit, neural
scene representations from unposed images. Different from other learning-based
reconstruction methods, we do not require pose priors nor sequential inputs,
and we optimize efficiently over thousands of images. Our method, ACE0 (ACE
Zero), estimates camera poses to an accuracy comparable to feature-based SfM,
as demonstrated by novel view synthesis. Project page:
https://nianticlabs.github.io/acezero/