LiftFeat: Corrispondenza di Caratteristiche Locali con Consapevolezza della Geometria 3D

Abstract

Il matching robusto ed efficiente di feature locali svolge un ruolo cruciale in applicazioni come SLAM e localizzazione visiva per la robotica. Nonostante i notevoli progressi, rimane molto complesso estrarre feature visive robuste e discriminative in scenari con drastici cambiamenti di illuminazione, aree a bassa texture o pattern ripetitivi. In questo articolo, proponiamo una nuova rete leggera chiamata LiftFeat, che migliora la robustezza dei descrittori grezzi aggregando feature geometriche 3D. Nello specifico, adottiamo prima un modello pre-addestrato di stima della profondità monoculare per generare etichette pseudo-normali di superficie, supervisionando l'estrazione di feature geometriche 3D in termini di normali di superficie predette. Successivamente, progettiamo un modulo di sollevamento delle feature consapevole della geometria 3D per fondere le feature delle normali di superficie con le feature dei descrittori 2D grezzi. L'integrazione di tali feature geometriche 3D potenzia la capacità discriminativa della descrizione delle feature 2D in condizioni estreme. I risultati sperimentali estesi su stime di posa relativa, stime di omografia e compiti di localizzazione visiva dimostrano che il nostro LiftFeat supera alcuni metodi leggeri all'avanguardia. Il codice sarà rilasciato su: https://github.com/lyp-deeplearning/LiftFeat.

English

Robust and efficient local feature matching plays a crucial role in applications such as SLAM and visual localization for robotics. Despite great progress, it is still very challenging to extract robust and discriminative visual features in scenarios with drastic lighting changes, low texture areas, or repetitive patterns. In this paper, we propose a new lightweight network called LiftFeat, which lifts the robustness of raw descriptor by aggregating 3D geometric feature. Specifically, we first adopt a pre-trained monocular depth estimation model to generate pseudo surface normal label, supervising the extraction of 3D geometric feature in terms of predicted surface normal. We then design a 3D geometry-aware feature lifting module to fuse surface normal feature with raw 2D descriptor feature. Integrating such 3D geometric feature enhances the discriminative ability of 2D feature description in extreme conditions. Extensive experimental results on relative pose estimation, homography estimation, and visual localization tasks, demonstrate that our LiftFeat outperforms some lightweight state-of-the-art methods. Code will be released at : https://github.com/lyp-deeplearning/LiftFeat.

LiftFeat: Corrispondenza di Caratteristiche Locali con Consapevolezza della Geometria 3D

LiftFeat: 3D Geometry-Aware Local Feature Matching

Abstract

Support