FlyPose: Rumo a uma Estimativa Robusta da Postura Humana a Partir de Visões Aéreas
FlyPose: Towards Robust Human Pose Estimation From Aerial Views
January 9, 2026
Autores: Hassaan Farooq, Marvin Brenner, Peter St\ütz
cs.AI
Resumo
Os Veículos Aéreos Não Tripulados (VANTs) são cada vez mais implantados em proximidade com humanos para aplicações como entrega de encomendas, monitorização de tráfego, resposta a desastres e inspeções de infraestruturas. Garantir uma operação segura e fiável nestes ambientes povoados por humanos exige uma perceção precisa das posturas e ações humanas a partir de um ponto de vista aéreo. Esta perspetiva coloca desafios aos métodos existentes devido à baixa resolução, ângulos de visão íngremes e oclusões (incluindo auto-oclusões), especialmente se a aplicação exigir modelos viáveis em tempo real. Nós treinamos e implementamos o FlyPose, um *pipeline* leve de estimativa de postura humana do tipo *top-down* para imagens aéreas. Através de treino multi-*dataset*, conseguimos uma melhoria média de 6,8 mAP na deteção de pessoas nos conjuntos de teste do Manipal-UAV, VisDrone, HIT-UAV e também no nosso *dataset* personalizado. Para a estimativa de postura humana 2D, reportamos uma melhoria de 16,3 mAP no desafiante *dataset* UAV-Human. O FlyPose executa com uma latência de inferência de ~20 milissegundos, incluindo pré-processamento, numa *Jetson Orin AGX Developer Kit* e é implementado a bordo de um VANT quadrotor durante experiências de voo. Publicamos também o FlyPose-104, um *dataset* pequeno mas desafiante para estimativa de postura humana aérea, que inclui anotações manuais de perspetivas aéreas difíceis: https://github.com/farooqhassaan/FlyPose.
English
Unmanned Aerial Vehicles (UAVs) are increasingly deployed in close proximity to humans for applications such as parcel delivery, traffic monitoring, disaster response and infrastructure inspections. Ensuring safe and reliable operation in these human-populated environments demands accurate perception of human poses and actions from an aerial viewpoint. This perspective challenges existing methods with low resolution, steep viewing angles and (self-)occlusion, especially if the application demands realtime feasibile models. We train and deploy FlyPose, a lightweight top-down human pose estimation pipeline for aerial imagery. Through multi-dataset training, we achieve an average improvement of 6.8 mAP in person detection across the test-sets of Manipal-UAV, VisDrone, HIT-UAV as well as our custom dataset. For 2D human pose estimation we report an improvement of 16.3 mAP on the challenging UAV-Human dataset. FlyPose runs with an inference latency of ~20 milliseconds including preprocessing on a Jetson Orin AGX Developer Kit and is deployed onboard a quadrotor UAV during flight experiments. We also publish FlyPose-104, a small but challenging aerial human pose estimation dataset, that includes manual annotations from difficult aerial perspectives: https://github.com/farooqhassaan/FlyPose.