RAPTOR: Una Politica Fondamentale per il Controllo dei Quadrotor
RAPTOR: A Foundation Policy for Quadrotor Control
September 15, 2025
Autori: Jonas Eschmann, Dario Albani, Giuseppe Loianno
cs.AI
Abstract
Gli esseri umani sono straordinariamente efficienti nell'uso dei dati quando si adattano a nuove condizioni non viste in precedenza, come guidare una nuova auto. Al contrario, i moderni sistemi di controllo robotico, come le politiche di rete neurale addestrate utilizzando l'Apprendimento per Rinforzo (Reinforcement Learning, RL), sono altamente specializzati per singoli ambienti. A causa di questo overfitting, è noto che si rompono anche sotto piccole differenze come il gap Simulazione-Realtà (Simulation-to-Reality, Sim2Real) e richiedono l'identificazione del sistema e il riaddestramento anche per cambiamenti minimi al sistema. In questo lavoro, presentiamo RAPTOR, un metodo per addestrare una politica di base altamente adattabile per il controllo di quadricotteri. Il nostro metodo consente di addestrare una singola politica di rete neurale end-to-end per controllare una vasta gamma di quadricotteri. Testiamo 10 diversi quadricotteri reali, da 32 g a 2,4 kg, che differiscono anche per tipo di motore (a spazzole vs. brushless), tipo di telaio (morbido vs. rigido), tipo di elica (2/3/4 pale) e controller di volo (PX4/Betaflight/Crazyflie/M5StampFly). Troviamo che una piccola politica a tre strati con soli 2084 parametri è sufficiente per l'adattamento zero-shot a una vasta gamma di piattaforme. L'adattamento attraverso l'Apprendimento in Contesto (In-Context Learning) è reso possibile utilizzando una ricorrenza nello strato nascosto. La politica viene addestrata attraverso un nuovo algoritmo di Meta-Imitation Learning, in cui campioniamo 1000 quadricotteri e addestriamo una politica insegnante per ciascuno di essi utilizzando l'Apprendimento per Rinforzo. Successivamente, i 1000 insegnanti vengono distillati in una singola politica studente adattabile. Troviamo che, in pochi millisecondi, la politica di base risultante si adatta zero-shot a quadricotteri non visti in precedenza. Testiamo ampiamente le capacità della politica di base in numerose condizioni (tracciamento di traiettorie, interno/esterno, disturbo del vento, colpi, diverse eliche).
English
Humans are remarkably data-efficient when adapting to new unseen conditions,
like driving a new car. In contrast, modern robotic control systems, like
neural network policies trained using Reinforcement Learning (RL), are highly
specialized for single environments. Because of this overfitting, they are
known to break down even under small differences like the Simulation-to-Reality
(Sim2Real) gap and require system identification and retraining for even
minimal changes to the system. In this work, we present RAPTOR, a method for
training a highly adaptive foundation policy for quadrotor control. Our method
enables training a single, end-to-end neural-network policy to control a wide
variety of quadrotors. We test 10 different real quadrotors from 32 g to 2.4 kg
that also differ in motor type (brushed vs. brushless), frame type (soft vs.
rigid), propeller type (2/3/4-blade), and flight controller
(PX4/Betaflight/Crazyflie/M5StampFly). We find that a tiny, three-layer policy
with only 2084 parameters is sufficient for zero-shot adaptation to a wide
variety of platforms. The adaptation through In-Context Learning is made
possible by using a recurrence in the hidden layer. The policy is trained
through a novel Meta-Imitation Learning algorithm, where we sample 1000
quadrotors and train a teacher policy for each of them using Reinforcement
Learning. Subsequently, the 1000 teachers are distilled into a single, adaptive
student policy. We find that within milliseconds, the resulting foundation
policy adapts zero-shot to unseen quadrotors. We extensively test the
capabilities of the foundation policy under numerous conditions (trajectory
tracking, indoor/outdoor, wind disturbance, poking, different propellers).