Co-SemDepth: 항공 이미지에서의 빠른 공동 의미론적 분할 및 깊이 추정
Co-SemDepth: Fast Joint Semantic Segmentation and Depth Estimation on Aerial Images
March 23, 2025
저자: Yara AlaaEldin, Francesca Odone
cs.AI
초록
장면의 기하학적 및 의미론적 특성을 이해하는 것은 자율 주행에서 매우 중요하며, 특히 무인 항공기(UAV) 내비게이션의 경우 더욱 어려운 과제입니다. 이러한 정보는 주변 환경의 깊이 및 의미론적 분할 맵을 추정함으로써 얻을 수 있으며, 자율 주행에서의 실질적인 활용을 위해서는 이 과정이 실시간에 가깝게 수행되어야 합니다. 본 논문에서는 저고도 비정형 환경에서 단안 카메라를 활용하여 깊이 및 의미론적 맵을 예측합니다. 우리는 두 작업을 정확하고 빠르게 수행할 수 있는 결합된 딥러닝 아키텍처를 제안하며, MidAir 및 Aeroscapes 벤치마크 데이터셋에서 그 효과를 검증합니다. 우리의 결합 아키텍처는 단일 및 결합 아키텍처 방법들에 비해 경쟁력이 있거나 우수한 성능을 보이며, 단일 NVIDIA Quadro P5000 GPU에서 20.2 FPS로 빠르게 예측을 수행하고 낮은 메모리 사용량을 자랑합니다. 학습 및 예측을 위한 모든 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/Malga-Vision/Co-SemDepth
English
Understanding the geometric and semantic properties of the scene is crucial
in autonomous navigation and particularly challenging in the case of Unmanned
Aerial Vehicle (UAV) navigation. Such information may be by obtained by
estimating depth and semantic segmentation maps of the surrounding environment
and for their practical use in autonomous navigation, the procedure must be
performed as close to real-time as possible. In this paper, we leverage
monocular cameras on aerial robots to predict depth and semantic maps in
low-altitude unstructured environments. We propose a joint deep-learning
architecture that can perform the two tasks accurately and rapidly, and
validate its effectiveness on MidAir and Aeroscapes benchmark datasets. Our
joint-architecture proves to be competitive or superior to the other single and
joint architecture methods while performing its task fast predicting 20.2 FPS
on a single NVIDIA quadro p5000 GPU and it has a low memory footprint. All
codes for training and prediction can be found on this link:
https://github.com/Malga-Vision/Co-SemDepthSummary
AI-Generated Summary