RAPTOR: Eine Basispolitik für die Steuerung von Quadrokoptern
RAPTOR: A Foundation Policy for Quadrotor Control
September 15, 2025
papers.authors: Jonas Eschmann, Dario Albani, Giuseppe Loianno
cs.AI
papers.abstract
Menschen sind bemerkenswert dateneffizient, wenn es darum geht, sich an neue, unbekannte Bedingungen anzupassen, wie beispielsweise das Fahren eines neuen Autos. Im Gegensatz dazu sind moderne robotische Steuerungssysteme, wie neuronale Netzwerk-Policies, die mit Reinforcement Learning (RL) trainiert wurden, stark auf einzelne Umgebungen spezialisiert. Aufgrund dieser Überanpassung ist bekannt, dass sie bereits bei geringfügigen Unterschieden, wie der Simulation-to-Reality (Sim2Real)-Lücke, versagen und selbst bei minimalen Änderungen am System eine Systemidentifikation und ein erneutes Training erfordern. In dieser Arbeit stellen wir RAPTOR vor, eine Methode zur Ausbildung einer hochadaptiven Foundation-Policy für die Steuerung von Quadrocoptern. Unsere Methode ermöglicht das Training einer einzigen, end-to-end neuronalen Netzwerk-Policy, die eine Vielzahl von Quadrocoptern steuern kann. Wir testen 10 verschiedene reale Quadrocopter mit einem Gewicht von 32 g bis 2,4 kg, die sich auch in Motortyp (gebürstet vs. bürstenlos), Rahmentyp (weich vs. starr), Propellertyp (2/3/4-Blatt) und Flugcontroller (PX4/Betaflight/Crazyflie/M5StampFly) unterscheiden. Wir stellen fest, dass eine winzige, dreischichtige Policy mit nur 2084 Parametern ausreicht, um sich ohne Anpassung (Zero-Shot) an eine Vielzahl von Plattformen anzupassen. Die Anpassung durch In-Context Learning wird durch eine Rekurrenz in der versteckten Schicht ermöglicht. Die Policy wird durch einen neuartigen Meta-Imitation-Learning-Algorithmus trainiert, bei dem wir 1000 Quadrocopter sampeln und für jeden eine Lehrer-Policy mit Reinforcement Learning trainieren. Anschließend werden die 1000 Lehrer in eine einzige, adaptive Schüler-Policy destilliert. Wir stellen fest, dass sich die resultierende Foundation-Policy innerhalb von Millisekunden ohne Anpassung (Zero-Shot) an unbekannte Quadrocopter anpasst. Wir testen die Fähigkeiten der Foundation-Policy ausgiebig unter zahlreichen Bedingungen (Trajektorienverfolgung, Innen-/Außenbereich, Windstörungen, Anstoßen, verschiedene Propeller).
English
Humans are remarkably data-efficient when adapting to new unseen conditions,
like driving a new car. In contrast, modern robotic control systems, like
neural network policies trained using Reinforcement Learning (RL), are highly
specialized for single environments. Because of this overfitting, they are
known to break down even under small differences like the Simulation-to-Reality
(Sim2Real) gap and require system identification and retraining for even
minimal changes to the system. In this work, we present RAPTOR, a method for
training a highly adaptive foundation policy for quadrotor control. Our method
enables training a single, end-to-end neural-network policy to control a wide
variety of quadrotors. We test 10 different real quadrotors from 32 g to 2.4 kg
that also differ in motor type (brushed vs. brushless), frame type (soft vs.
rigid), propeller type (2/3/4-blade), and flight controller
(PX4/Betaflight/Crazyflie/M5StampFly). We find that a tiny, three-layer policy
with only 2084 parameters is sufficient for zero-shot adaptation to a wide
variety of platforms. The adaptation through In-Context Learning is made
possible by using a recurrence in the hidden layer. The policy is trained
through a novel Meta-Imitation Learning algorithm, where we sample 1000
quadrotors and train a teacher policy for each of them using Reinforcement
Learning. Subsequently, the 1000 teachers are distilled into a single, adaptive
student policy. We find that within milliseconds, the resulting foundation
policy adapts zero-shot to unseen quadrotors. We extensively test the
capabilities of the foundation policy under numerous conditions (trajectory
tracking, indoor/outdoor, wind disturbance, poking, different propellers).