Co-SemDepth : Estimation rapide conjointe de la segmentation sémantique et de la profondeur sur des images aériennes
Co-SemDepth: Fast Joint Semantic Segmentation and Depth Estimation on Aerial Images
March 23, 2025
Auteurs: Yara AlaaEldin, Francesca Odone
cs.AI
Résumé
Comprendre les propriétés géométriques et sémantiques de la scène est crucial pour la navigation autonome, et particulièrement complexe dans le cas de la navigation des véhicules aériens sans pilote (UAV). Ces informations peuvent être obtenues en estimant les cartes de profondeur et de segmentation sémantique de l'environnement environnant. Pour une utilisation pratique dans la navigation autonome, cette procédure doit être exécutée aussi près que possible du temps réel. Dans cet article, nous exploitons des caméras monoculaires sur des robots aériens pour prédire les cartes de profondeur et sémantiques dans des environnements non structurés à basse altitude. Nous proposons une architecture d'apprentissage profond conjointe capable d'exécuter ces deux tâches avec précision et rapidité, et validons son efficacité sur les ensembles de données de référence MidAir et Aeroscapes. Notre architecture conjointe se révèle compétitive ou supérieure aux autres méthodes d'architecture unique ou conjointe, tout en exécutant sa tâche rapidement avec une prédiction de 20,2 FPS sur une seule GPU NVIDIA Quadro P5000, et avec une empreinte mémoire réduite. Tous les codes pour l'entraînement et la prédiction sont disponibles à ce lien : https://github.com/Malga-Vision/Co-SemDepth
English
Understanding the geometric and semantic properties of the scene is crucial
in autonomous navigation and particularly challenging in the case of Unmanned
Aerial Vehicle (UAV) navigation. Such information may be by obtained by
estimating depth and semantic segmentation maps of the surrounding environment
and for their practical use in autonomous navigation, the procedure must be
performed as close to real-time as possible. In this paper, we leverage
monocular cameras on aerial robots to predict depth and semantic maps in
low-altitude unstructured environments. We propose a joint deep-learning
architecture that can perform the two tasks accurately and rapidly, and
validate its effectiveness on MidAir and Aeroscapes benchmark datasets. Our
joint-architecture proves to be competitive or superior to the other single and
joint architecture methods while performing its task fast predicting 20.2 FPS
on a single NVIDIA quadro p5000 GPU and it has a low memory footprint. All
codes for training and prediction can be found on this link:
https://github.com/Malga-Vision/Co-SemDepthSummary
AI-Generated Summary