FlyPose: Hacia una Estimación Robusta de la Postura Humana desde Vistas Aéreas
FlyPose: Towards Robust Human Pose Estimation From Aerial Views
January 9, 2026
Autores: Hassaan Farooq, Marvin Brenner, Peter St\ütz
cs.AI
Resumen
Los vehículos aéreos no tripulados (UAV) se despliegan cada vez más en proximidad a humanos para aplicaciones como entrega de paquetes, monitoreo de tráfico, respuesta ante desastres e inspecciones de infraestructuras. Garantizar una operación segura y confiable en estos entornos poblados exige una percepción precisa de las posturas y acciones humanas desde una perspectiva aérea. Este punto de vista desafía a los métodos existentes con baja resolución, ángulos de visión pronunciados y oclusiones (auto)incluidas, especialmente si la aplicación requiere modelos factibles en tiempo real. Entrenamos e implementamos FlyPose, un pipeline ligero de estimación de postura humana de tipo top-down para imágenes aéreas. Mediante entrenamiento multiconjunto de datos, logramos una mejora promedio de 6.8 mAP en la detección de personas a través de los conjuntos de prueba de Manipal-UAV, VisDrone, HIT-UAV y nuestro conjunto de datos personalizado. Para la estimación de postura humana en 2D reportamos una mejora de 16.3 mAP en el desafiante conjunto de datos UAV-Human. FlyPose funciona con una latencia de inferencia de ~20 milisegundos incluyendo preprocesamiento en un Jetson Orin AGX Developer Kit y se implementa a bordo de un UAV cuadrirrotor durante experimentos de vuelo. También publicamos FlyPose-104, un conjunto de datos pequeño pero desafiante para estimación de postura humana aérea, que incluye anotaciones manuales desde perspectivas aéreas difíciles: https://github.com/farooqhassaan/FlyPose.
English
Unmanned Aerial Vehicles (UAVs) are increasingly deployed in close proximity to humans for applications such as parcel delivery, traffic monitoring, disaster response and infrastructure inspections. Ensuring safe and reliable operation in these human-populated environments demands accurate perception of human poses and actions from an aerial viewpoint. This perspective challenges existing methods with low resolution, steep viewing angles and (self-)occlusion, especially if the application demands realtime feasibile models. We train and deploy FlyPose, a lightweight top-down human pose estimation pipeline for aerial imagery. Through multi-dataset training, we achieve an average improvement of 6.8 mAP in person detection across the test-sets of Manipal-UAV, VisDrone, HIT-UAV as well as our custom dataset. For 2D human pose estimation we report an improvement of 16.3 mAP on the challenging UAV-Human dataset. FlyPose runs with an inference latency of ~20 milliseconds including preprocessing on a Jetson Orin AGX Developer Kit and is deployed onboard a quadrotor UAV during flight experiments. We also publish FlyPose-104, a small but challenging aerial human pose estimation dataset, that includes manual annotations from difficult aerial perspectives: https://github.com/farooqhassaan/FlyPose.