Co-SemDepth: Estimação Rápida Conjunta de Segmentação Semântica e Profundidade em Imagens Aéreas
Co-SemDepth: Fast Joint Semantic Segmentation and Depth Estimation on Aerial Images
March 23, 2025
Autores: Yara AlaaEldin, Francesca Odone
cs.AI
Resumo
Compreender as propriedades geométricas e semânticas da cena é crucial para a navegação autônoma e particularmente desafiador no caso de navegação de Veículos Aéreos Não Tripulados (VANTs). Essas informações podem ser obtidas estimando mapas de profundidade e segmentação semântica do ambiente circundante, e para seu uso prático na navegação autônoma, o procedimento deve ser realizado o mais próximo possível do tempo real. Neste artigo, utilizamos câmeras monoculares em robôs aéreos para prever mapas de profundidade e semânticos em ambientes não estruturados de baixa altitude. Propomos uma arquitetura conjunta de aprendizado profundo que pode realizar as duas tarefas com precisão e rapidez, e validamos sua eficácia nos conjuntos de dados de referência MidAir e Aeroscapes. Nossa arquitetura conjunta demonstra ser competitiva ou superior a outros métodos de arquitetura única e conjunta, enquanto executa sua tarefa rapidamente, prevendo 20,2 FPS em uma única GPU NVIDIA Quadro P5000, e possui uma baixa pegada de memória. Todos os códigos para treinamento e previsão podem ser encontrados neste link: https://github.com/Malga-Vision/Co-SemDepth
English
Understanding the geometric and semantic properties of the scene is crucial
in autonomous navigation and particularly challenging in the case of Unmanned
Aerial Vehicle (UAV) navigation. Such information may be by obtained by
estimating depth and semantic segmentation maps of the surrounding environment
and for their practical use in autonomous navigation, the procedure must be
performed as close to real-time as possible. In this paper, we leverage
monocular cameras on aerial robots to predict depth and semantic maps in
low-altitude unstructured environments. We propose a joint deep-learning
architecture that can perform the two tasks accurately and rapidly, and
validate its effectiveness on MidAir and Aeroscapes benchmark datasets. Our
joint-architecture proves to be competitive or superior to the other single and
joint architecture methods while performing its task fast predicting 20.2 FPS
on a single NVIDIA quadro p5000 GPU and it has a low memory footprint. All
codes for training and prediction can be found on this link:
https://github.com/Malga-Vision/Co-SemDepthSummary
AI-Generated Summary