ChatPaper.aiChatPaper

Co-SemDepth: Estimación Rápida Conjunta de Segmentación Semántica y Profundidad en Imágenes Aéreas

Co-SemDepth: Fast Joint Semantic Segmentation and Depth Estimation on Aerial Images

March 23, 2025
Autores: Yara AlaaEldin, Francesca Odone
cs.AI

Resumen

Comprender las propiedades geométricas y semánticas de la escena es crucial para la navegación autónoma y resulta particularmente desafiante en el caso de la navegación de vehículos aéreos no tripulados (UAV). Dicha información puede obtenerse estimando mapas de profundidad y segmentación semántica del entorno circundante, y para su uso práctico en la navegación autónoma, el procedimiento debe realizarse lo más cercano posible al tiempo real. En este artículo, aprovechamos cámaras monoculares en robots aéreos para predecir mapas de profundidad y semánticos en entornos no estructurados de baja altitud. Proponemos una arquitectura de aprendizaje profundo conjunta que puede realizar estas dos tareas de manera precisa y rápida, y validamos su efectividad en los conjuntos de datos de referencia MidAir y Aeroscapes. Nuestra arquitectura conjunta demuestra ser competitiva o superior a otros métodos de arquitectura única y conjunta, mientras realiza su tarea rápidamente, prediciendo 20.2 FPS en una sola GPU NVIDIA Quadro P5000, y tiene un bajo consumo de memoria. Todos los códigos para entrenamiento y predicción pueden encontrarse en este enlace: https://github.com/Malga-Vision/Co-SemDepth
English
Understanding the geometric and semantic properties of the scene is crucial in autonomous navigation and particularly challenging in the case of Unmanned Aerial Vehicle (UAV) navigation. Such information may be by obtained by estimating depth and semantic segmentation maps of the surrounding environment and for their practical use in autonomous navigation, the procedure must be performed as close to real-time as possible. In this paper, we leverage monocular cameras on aerial robots to predict depth and semantic maps in low-altitude unstructured environments. We propose a joint deep-learning architecture that can perform the two tasks accurately and rapidly, and validate its effectiveness on MidAir and Aeroscapes benchmark datasets. Our joint-architecture proves to be competitive or superior to the other single and joint architecture methods while performing its task fast predicting 20.2 FPS on a single NVIDIA quadro p5000 GPU and it has a low memory footprint. All codes for training and prediction can be found on this link: https://github.com/Malga-Vision/Co-SemDepth

Summary

AI-Generated Summary

PDF02March 26, 2025