ChatPaper.aiChatPaper

FlyPose: Auf dem Weg zu robuster menschlicher Posenschätzung aus Luftaufnahmen

FlyPose: Towards Robust Human Pose Estimation From Aerial Views

January 9, 2026
papers.authors: Hassaan Farooq, Marvin Brenner, Peter St\ütz
cs.AI

papers.abstract

Unbemannte Luftfahrzeuge (UAVs) werden zunehmend in unmittelbarer Nähe zu Menschen für Anwendungen wie Paketzustellung, Verkehrsüberwachung, Katastrophenhilfe und Infrastrukturinspektionen eingesetzt. Um einen sicheren und zuverlässigen Betrieb in diesen von Menschen bevölkerten Umgebungen zu gewährleisten, ist eine genaue Erfassung menschlicher Körperhaltungen und Handlungen aus der Luftperspektive erforderlich. Diese Perspektive stellt bestehende Methoden aufgrund geringer Auflösung, steiler Betrachtungswinkel und (Selbst-)Verdeckungen vor Herausforderungen, insbesondere wenn die Anwendung echtzeitfähige Modelle erfordert. Wir trainieren und implementieren FlyPose, eine schlanke "Top-Down"-Pipeline zur Schätzung menschlicher Körperhaltung für Luftaufnahmen. Durch Multi-Dataset-Training erreichen wir eine durchschnittliche Steigerung von 6,8 mAP bei der Personenerkennung über die Testsets von Manipal-UAV, VisDrone, HIT-UAV sowie unserem eigenen benutzerdefinierten Datensatz. Für die 2D-Schätzung menschlicher Körperhaltung verzeichnen wir eine Verbesserung von 16,3 mAP auf dem anspruchsvollen UAV-Human-Datensatz. FlyPose läuft mit einer Inferenzlatenz von ~20 Millisekunden inklusive Vorverarbeitung auf einem Jetson Orin AGX Developer Kit und wird onboard eines Quadrokopter-UAVs während Flugexperimenten eingesetzt. Wir veröffentlichen ebenfalls FlyPose-104, einen kleinen aber anspruchsvollen Datensatz zur Schätzung menschlicher Körperhaltung aus der Luft, der manuelle Annotationen aus schwierigen Luftperspektiven enthält: https://github.com/farooqhassaan/FlyPose.
English
Unmanned Aerial Vehicles (UAVs) are increasingly deployed in close proximity to humans for applications such as parcel delivery, traffic monitoring, disaster response and infrastructure inspections. Ensuring safe and reliable operation in these human-populated environments demands accurate perception of human poses and actions from an aerial viewpoint. This perspective challenges existing methods with low resolution, steep viewing angles and (self-)occlusion, especially if the application demands realtime feasibile models. We train and deploy FlyPose, a lightweight top-down human pose estimation pipeline for aerial imagery. Through multi-dataset training, we achieve an average improvement of 6.8 mAP in person detection across the test-sets of Manipal-UAV, VisDrone, HIT-UAV as well as our custom dataset. For 2D human pose estimation we report an improvement of 16.3 mAP on the challenging UAV-Human dataset. FlyPose runs with an inference latency of ~20 milliseconds including preprocessing on a Jetson Orin AGX Developer Kit and is deployed onboard a quadrotor UAV during flight experiments. We also publish FlyPose-104, a small but challenging aerial human pose estimation dataset, that includes manual annotations from difficult aerial perspectives: https://github.com/farooqhassaan/FlyPose.
PDF22January 31, 2026