ChatPaper.aiChatPaper

Co-SemDepth: Быстрое совместное семантическое сегментирование и оценка глубины на аэрофотоснимках

Co-SemDepth: Fast Joint Semantic Segmentation and Depth Estimation on Aerial Images

March 23, 2025
Авторы: Yara AlaaEldin, Francesca Odone
cs.AI

Аннотация

Понимание геометрических и семантических свойств сцены является крайне важным для автономной навигации и представляет особую сложность в случае навигации беспилотных летательных аппаратов (БПЛА). Такая информация может быть получена путем оценки карт глубины и семантической сегментации окружающей среды, а для их практического использования в автономной навигации этот процесс должен выполняться максимально близко к реальному времени. В данной работе мы используем монокулярные камеры на борту аэророботов для предсказания карт глубины и семантики в неструктурированных средах на малых высотах. Мы предлагаем совместную архитектуру глубокого обучения, которая способна выполнять обе задачи точно и быстро, и подтверждаем ее эффективность на эталонных наборах данных MidAir и Aeroscapes. Наша совместная архитектура демонстрирует конкурентоспособность или превосходство по сравнению с другими методами, как отдельными, так и совместными, при этом выполняя задачи быстро, предсказывая 20,2 кадра в секунду на одной видеокарте NVIDIA Quadro P5000, и имеет низкий объем потребляемой памяти. Все коды для обучения и предсказания доступны по ссылке: https://github.com/Malga-Vision/Co-SemDepth.
English
Understanding the geometric and semantic properties of the scene is crucial in autonomous navigation and particularly challenging in the case of Unmanned Aerial Vehicle (UAV) navigation. Such information may be by obtained by estimating depth and semantic segmentation maps of the surrounding environment and for their practical use in autonomous navigation, the procedure must be performed as close to real-time as possible. In this paper, we leverage monocular cameras on aerial robots to predict depth and semantic maps in low-altitude unstructured environments. We propose a joint deep-learning architecture that can perform the two tasks accurately and rapidly, and validate its effectiveness on MidAir and Aeroscapes benchmark datasets. Our joint-architecture proves to be competitive or superior to the other single and joint architecture methods while performing its task fast predicting 20.2 FPS on a single NVIDIA quadro p5000 GPU and it has a low memory footprint. All codes for training and prediction can be found on this link: https://github.com/Malga-Vision/Co-SemDepth

Summary

AI-Generated Summary

PDF02March 26, 2025