Scènecoördinatenreconstructie: Positionering van beeldcollecties via incrementeel leren van een relocalizer
Scene Coordinate Reconstruction: Posing of Image Collections via Incremental Learning of a Relocalizer
April 22, 2024
Auteurs: Eric Brachmann, Jamie Wynn, Shuai Chen, Tommaso Cavallari, Áron Monszpart, Daniyar Turmukhambetov, Victor Adrian Prisacariu
cs.AI
Samenvatting
We behandelen de taak van het schatten van cameraparameters uit een set afbeeldingen die een scène weergeven. Populaire feature-gebaseerde structure-from-motion (SfM) tools lossen deze taak op door incrementele reconstructie: ze herhalen de triangulatie van schaarse 3D-punten en de registratie van meer camerabeelden bij de schaarse puntenwolk. We interpreteren incrementele structure-from-motion opnieuw als een herhaalde toepassing en verfijning van een visuele relocalizer, dat wil zeggen, een methode die nieuwe beelden registreert bij de huidige staat van de reconstructie. Dit perspectief stelt ons in staat om alternatieve visuele relocalizers te onderzoeken die niet gebaseerd zijn op lokale feature-matching. We laten zien dat scene coordinate regression, een op leren gebaseerde relocalisatiebenadering, ons in staat stelt om impliciete, neurale scène-representaties te bouwen uit ongeposeerde afbeeldingen. In tegenstelling tot andere op leren gebaseerde reconstructiemethoden, hebben we geen pose-priors noch sequentiële inputs nodig, en optimaliseren we efficiënt over duizenden afbeeldingen. Onze methode, ACE0 (ACE Zero), schat cameraposes met een nauwkeurigheid die vergelijkbaar is met feature-gebaseerde SfM, zoals aangetoond wordt door novel view synthesis. Projectpagina: https://nianticlabs.github.io/acezero/
English
We address the task of estimating camera parameters from a set of images
depicting a scene. Popular feature-based structure-from-motion (SfM) tools
solve this task by incremental reconstruction: they repeat triangulation of
sparse 3D points and registration of more camera views to the sparse point
cloud. We re-interpret incremental structure-from-motion as an iterated
application and refinement of a visual relocalizer, that is, of a method that
registers new views to the current state of the reconstruction. This
perspective allows us to investigate alternative visual relocalizers that are
not rooted in local feature matching. We show that scene coordinate regression,
a learning-based relocalization approach, allows us to build implicit, neural
scene representations from unposed images. Different from other learning-based
reconstruction methods, we do not require pose priors nor sequential inputs,
and we optimize efficiently over thousands of images. Our method, ACE0 (ACE
Zero), estimates camera poses to an accuracy comparable to feature-based SfM,
as demonstrated by novel view synthesis. Project page:
https://nianticlabs.github.io/acezero/