RAPTOR: Een Basisbeleid voor Quadrotor-besturing
RAPTOR: A Foundation Policy for Quadrotor Control
September 15, 2025
Auteurs: Jonas Eschmann, Dario Albani, Giuseppe Loianno
cs.AI
Samenvatting
Mensen zijn opmerkelijk data-efficiënt wanneer ze zich aanpassen aan nieuwe, onbekende omstandigheden, zoals het besturen van een nieuwe auto. Moderne robotbesturingssystemen, zoals neurale netwerkbeleidsregels die zijn getraind met Reinforcement Learning (RL), zijn daarentegen sterk gespecialiseerd voor individuele omgevingen. Door deze overfitting is bekend dat ze zelfs bij kleine verschillen, zoals de Simulation-to-Reality (Sim2Real)-kloof, falen en dat ze systeemidentificatie en hertraining vereisen, zelfs bij minimale wijzigingen aan het systeem. In dit werk presenteren we RAPTOR, een methode voor het trainen van een zeer adaptief basisbeleid voor quadrotor-besturing. Onze methode maakt het mogelijk om een enkel, end-to-end neuraal netwerkbeleid te trainen om een breed scala aan quadrotors te besturen. We testen 10 verschillende echte quadrotors van 32 g tot 2,4 kg die ook verschillen in motortype (geborsteld vs. borstelloos), frametype (zacht vs. stijf), propeller type (2/3/4-blad) en vluchtcontroller (PX4/Betaflight/Crazyflie/M5StampFly). We ontdekken dat een klein, drie-lagen beleid met slechts 2084 parameters voldoende is voor zero-shot aanpassing aan een breed scala aan platforms. De aanpassing via In-Context Learning wordt mogelijk gemaakt door het gebruik van een herhaling in de verborgen laag. Het beleid wordt getraind via een nieuw Meta-Imitation Learning-algoritme, waarbij we 1000 quadrotors bemonsteren en voor elk daarvan een leraarbeleid trainen met Reinforcement Learning. Vervolgens worden de 1000 leraren gedistilleerd in een enkel, adaptief studentenbeleid. We ontdekken dat het resulterende basisbeleid binnen milliseconden zero-shot aanpast aan onbekende quadrotors. We testen uitgebreid de mogelijkheden van het basisbeleid onder talrijke omstandigheden (trajectvolging, binnen/buiten, windverstoring, aanraking, verschillende propellers).
English
Humans are remarkably data-efficient when adapting to new unseen conditions,
like driving a new car. In contrast, modern robotic control systems, like
neural network policies trained using Reinforcement Learning (RL), are highly
specialized for single environments. Because of this overfitting, they are
known to break down even under small differences like the Simulation-to-Reality
(Sim2Real) gap and require system identification and retraining for even
minimal changes to the system. In this work, we present RAPTOR, a method for
training a highly adaptive foundation policy for quadrotor control. Our method
enables training a single, end-to-end neural-network policy to control a wide
variety of quadrotors. We test 10 different real quadrotors from 32 g to 2.4 kg
that also differ in motor type (brushed vs. brushless), frame type (soft vs.
rigid), propeller type (2/3/4-blade), and flight controller
(PX4/Betaflight/Crazyflie/M5StampFly). We find that a tiny, three-layer policy
with only 2084 parameters is sufficient for zero-shot adaptation to a wide
variety of platforms. The adaptation through In-Context Learning is made
possible by using a recurrence in the hidden layer. The policy is trained
through a novel Meta-Imitation Learning algorithm, where we sample 1000
quadrotors and train a teacher policy for each of them using Reinforcement
Learning. Subsequently, the 1000 teachers are distilled into a single, adaptive
student policy. We find that within milliseconds, the resulting foundation
policy adapts zero-shot to unseen quadrotors. We extensively test the
capabilities of the foundation policy under numerous conditions (trajectory
tracking, indoor/outdoor, wind disturbance, poking, different propellers).