Co-SemDepth: Estimación Rápida Conjunta de Segmentación Semántica y Profundidad en Imágenes Aéreas
Co-SemDepth: Fast Joint Semantic Segmentation and Depth Estimation on Aerial Images
March 23, 2025
Autores: Yara AlaaEldin, Francesca Odone
cs.AI
Resumen
Comprender las propiedades geométricas y semánticas de la escena es crucial
para la navegación autónoma y resulta particularmente desafiante en el caso de
la navegación de vehículos aéreos no tripulados (UAV). Dicha información puede
obtenerse estimando mapas de profundidad y segmentación semántica del entorno
circundante, y para su uso práctico en la navegación autónoma, el procedimiento
debe realizarse lo más cercano posible al tiempo real. En este artículo,
aprovechamos cámaras monoculares en robots aéreos para predecir mapas de
profundidad y semánticos en entornos no estructurados de baja altitud.
Proponemos una arquitectura de aprendizaje profundo conjunta que puede realizar
estas dos tareas de manera precisa y rápida, y validamos su efectividad en los
conjuntos de datos de referencia MidAir y Aeroscapes. Nuestra arquitectura
conjunta demuestra ser competitiva o superior a otros métodos de arquitectura
única y conjunta, mientras realiza su tarea rápidamente, prediciendo 20.2 FPS
en una sola GPU NVIDIA Quadro P5000, y tiene un bajo consumo de memoria. Todos
los códigos para entrenamiento y predicción pueden encontrarse en este enlace:
https://github.com/Malga-Vision/Co-SemDepth
English
Understanding the geometric and semantic properties of the scene is crucial
in autonomous navigation and particularly challenging in the case of Unmanned
Aerial Vehicle (UAV) navigation. Such information may be by obtained by
estimating depth and semantic segmentation maps of the surrounding environment
and for their practical use in autonomous navigation, the procedure must be
performed as close to real-time as possible. In this paper, we leverage
monocular cameras on aerial robots to predict depth and semantic maps in
low-altitude unstructured environments. We propose a joint deep-learning
architecture that can perform the two tasks accurately and rapidly, and
validate its effectiveness on MidAir and Aeroscapes benchmark datasets. Our
joint-architecture proves to be competitive or superior to the other single and
joint architecture methods while performing its task fast predicting 20.2 FPS
on a single NVIDIA quadro p5000 GPU and it has a low memory footprint. All
codes for training and prediction can be found on this link:
https://github.com/Malga-Vision/Co-SemDepthSummary
AI-Generated Summary