Reconstrução de Coordenadas de Cena: Posicionamento de Coleções de Imagens por meio de Aprendizado Incremental de um Relocalizador
Scene Coordinate Reconstruction: Posing of Image Collections via Incremental Learning of a Relocalizer
April 22, 2024
Autores: Eric Brachmann, Jamie Wynn, Shuai Chen, Tommaso Cavallari, Áron Monszpart, Daniyar Turmukhambetov, Victor Adrian Prisacariu
cs.AI
Resumo
Abordamos a tarefa de estimar parâmetros da câmera a partir de um conjunto de imagens que retratam uma cena. Ferramentas populares de estrutura a partir de movimento (SfM) baseadas em características resolvem essa tarefa por meio de reconstrução incremental: elas repetem a triangulação de pontos 3D esparsos e o registro de mais visões da câmera na nuvem de pontos esparsa. Reinterpretamos a estrutura a partir de movimento incremental como uma aplicação iterativa e refinamento de um relocalizador visual, ou seja, de um método que registra novas visões no estado atual da reconstrução. Essa perspectiva nos permite investigar relocalizadores visuais alternativos que não se baseiam em correspondência de características locais. Mostramos que a regressão de coordenadas da cena, uma abordagem de relocalização baseada em aprendizado, nos permite construir representações de cena neurais implícitas a partir de imagens sem pose. Diferente de outros métodos de reconstrução baseados em aprendizado, não exigimos priors de pose nem entradas sequenciais, e otimizamos eficientemente milhares de imagens. Nosso método, ACE0 (ACE Zero), estima as poses da câmera com uma precisão comparável ao SfM baseado em características, conforme demonstrado pela síntese de novas visões. Página do projeto: https://nianticlabs.github.io/acezero/
English
We address the task of estimating camera parameters from a set of images
depicting a scene. Popular feature-based structure-from-motion (SfM) tools
solve this task by incremental reconstruction: they repeat triangulation of
sparse 3D points and registration of more camera views to the sparse point
cloud. We re-interpret incremental structure-from-motion as an iterated
application and refinement of a visual relocalizer, that is, of a method that
registers new views to the current state of the reconstruction. This
perspective allows us to investigate alternative visual relocalizers that are
not rooted in local feature matching. We show that scene coordinate regression,
a learning-based relocalization approach, allows us to build implicit, neural
scene representations from unposed images. Different from other learning-based
reconstruction methods, we do not require pose priors nor sequential inputs,
and we optimize efficiently over thousands of images. Our method, ACE0 (ACE
Zero), estimates camera poses to an accuracy comparable to feature-based SfM,
as demonstrated by novel view synthesis. Project page:
https://nianticlabs.github.io/acezero/