Co-SemDepth: Snelle Gezamenlijke Semantische Segmentatie en Diepteschatting op Luchtfoto's
Co-SemDepth: Fast Joint Semantic Segmentation and Depth Estimation on Aerial Images
March 23, 2025
Auteurs: Yara AlaaEldin, Francesca Odone
cs.AI
Samenvatting
Het begrijpen van de geometrische en semantische eigenschappen van de omgeving is cruciaal voor autonome navigatie en vormt een bijzondere uitdaging in het geval van navigatie met onbemande luchtvaartuigen (UAV's). Dergelijke informatie kan worden verkregen door het schatten van diepte- en semantische segmentatiekaarten van de omringende omgeving, en voor praktisch gebruik in autonome navigatie moet dit proces zo dicht mogelijk bij realtime worden uitgevoerd. In dit artikel maken we gebruik van monoculaire camera's op luchtrobots om diepte- en semantische kaarten te voorspellen in ongestructureerde omgevingen op lage hoogte. We stellen een gezamenlijke deep learning-architectuur voor die beide taken nauwkeurig en snel kan uitvoeren, en valideren de effectiviteit ervan op de benchmarkdatasets MidAir en Aeroscapes. Onze gezamenlijke architectuur blijkt concurrerend of superieur te zijn ten opzichte van andere methoden met enkele of gezamenlijke architectuur, terwijl deze snel werkt met een voorspellingssnelheid van 20,2 FPS op een enkele NVIDIA Quadro P5000 GPU en een laag geheugengebruik heeft. Alle codes voor training en voorspelling zijn te vinden op deze link: https://github.com/Malga-Vision/Co-SemDepth
English
Understanding the geometric and semantic properties of the scene is crucial
in autonomous navigation and particularly challenging in the case of Unmanned
Aerial Vehicle (UAV) navigation. Such information may be by obtained by
estimating depth and semantic segmentation maps of the surrounding environment
and for their practical use in autonomous navigation, the procedure must be
performed as close to real-time as possible. In this paper, we leverage
monocular cameras on aerial robots to predict depth and semantic maps in
low-altitude unstructured environments. We propose a joint deep-learning
architecture that can perform the two tasks accurately and rapidly, and
validate its effectiveness on MidAir and Aeroscapes benchmark datasets. Our
joint-architecture proves to be competitive or superior to the other single and
joint architecture methods while performing its task fast predicting 20.2 FPS
on a single NVIDIA quadro p5000 GPU and it has a low memory footprint. All
codes for training and prediction can be found on this link:
https://github.com/Malga-Vision/Co-SemDepthSummary
AI-Generated Summary