FlyPose: Naar Robuuste Schatting van Menselijke Houdingen vanuit Luchtbeelden
FlyPose: Towards Robust Human Pose Estimation From Aerial Views
January 9, 2026
Auteurs: Hassaan Farooq, Marvin Brenner, Peter St\ütz
cs.AI
Samenvatting
Onbemande luchtvaartuigen (UAV's) worden steeds vaker ingezet in de directe nabijheid van mensen voor toepassingen zoals pakketbezorging, verkeersmonitoring, rampenbestrijding en inspecties van infrastructuur. Het waarborgen van een veilige en betrouwbare werking in deze door mensen bevolkte omgevingen vereist een accurate perceptie van menselijke houdingen en handelingen vanuit een luchtperspectief. Dit perspectief stelt bestaande methoden voor uitdagingen door lage resolutie, steile kijkhoeken en (zelf-)occlusie, vooral als de toepassing realtime uitvoerbare modellen vereist. Wij trainen en implementeren FlyPose, een lichtgewicht top-down pipeline voor schatting van menselijke houdingen vanuit luchtbeelden. Door training op meerdere datasets behalen we een gemiddelde verbetering van 6.8 mAP in persoonsdetectie op de testsets van Manipal-UAV, VisDrone, HIT-UAV en onze eigen aangepaste dataset. Voor 2D-schatting van menselijke houdingen melden we een verbetering van 16.3 mAP op de uitdagende UAV-Human dataset. FlyPose werkt met een inferentielatentie van ongeveer 20 milliseconden, inclusief preprocessing, op een Jetson Orin AGX Developer Kit en wordt aan boord geïmplementeerd van een quadrotor-UAV tijdens vluchtexperimenten. Wij publiceren tevens FlyPose-104, een kleine maar uitdagende dataset voor schatting van menselijke houdingen vanuit de lucht, die handmatige annotaties bevat vanuit moeilijke luchtperspectieven: https://github.com/farooqhassaan/FlyPose.
English
Unmanned Aerial Vehicles (UAVs) are increasingly deployed in close proximity to humans for applications such as parcel delivery, traffic monitoring, disaster response and infrastructure inspections. Ensuring safe and reliable operation in these human-populated environments demands accurate perception of human poses and actions from an aerial viewpoint. This perspective challenges existing methods with low resolution, steep viewing angles and (self-)occlusion, especially if the application demands realtime feasibile models. We train and deploy FlyPose, a lightweight top-down human pose estimation pipeline for aerial imagery. Through multi-dataset training, we achieve an average improvement of 6.8 mAP in person detection across the test-sets of Manipal-UAV, VisDrone, HIT-UAV as well as our custom dataset. For 2D human pose estimation we report an improvement of 16.3 mAP on the challenging UAV-Human dataset. FlyPose runs with an inference latency of ~20 milliseconds including preprocessing on a Jetson Orin AGX Developer Kit and is deployed onboard a quadrotor UAV during flight experiments. We also publish FlyPose-104, a small but challenging aerial human pose estimation dataset, that includes manual annotations from difficult aerial perspectives: https://github.com/farooqhassaan/FlyPose.