RAPTOR : Une politique fondamentale pour le contrôle des quadrirotors
RAPTOR: A Foundation Policy for Quadrotor Control
September 15, 2025
papers.authors: Jonas Eschmann, Dario Albani, Giuseppe Loianno
cs.AI
papers.abstract
Les humains sont remarquablement efficaces en termes de données lorsqu'ils s'adaptent à de nouvelles conditions inédites, comme conduire une nouvelle voiture. En revanche, les systèmes de contrôle robotiques modernes, tels que les politiques de réseaux de neurones entraînées par apprentissage par renforcement (Reinforcement Learning, RL), sont hautement spécialisés pour des environnements uniques. En raison de ce surajustement, ils sont connus pour échouer même face à de petites différences, comme l'écart entre la simulation et la réalité (Simulation-to-Reality, Sim2Real), et nécessitent une identification du système et un réentraînement pour des modifications même minimes du système. Dans ce travail, nous présentons RAPTOR, une méthode pour entraîner une politique de base hautement adaptable pour le contrôle de quadrirotors. Notre méthode permet d'entraîner une politique unique de réseau de neurones de bout en bout pour contrôler une grande variété de quadrirotors. Nous testons 10 quadrirotors réels différents, allant de 32 g à 2,4 kg, qui diffèrent également par le type de moteur (à balais vs. sans balais), le type de cadre (souple vs. rigide), le type d'hélice (2/3/4 pales) et le contrôleur de vol (PX4/Betaflight/Crazyflie/M5StampFly). Nous constatons qu'une politique minuscule à trois couches avec seulement 2084 paramètres est suffisante pour une adaptation à zéro coup (zero-shot) à une grande variété de plateformes. L'adaptation par apprentissage en contexte (In-Context Learning) est rendue possible grâce à une récurrence dans la couche cachée. La politique est entraînée via un nouvel algorithme d'apprentissage par méta-imitation (Meta-Imitation Learning), où nous échantillonnons 1000 quadrirotors et entraînons une politique enseignante pour chacun d'eux en utilisant l'apprentissage par renforcement. Par la suite, les 1000 enseignants sont distillés en une seule politique étudiante adaptable. Nous constatons qu'en quelques millisecondes, la politique de base résultante s'adapte à zéro coup à des quadrirotors inédits. Nous testons largement les capacités de la politique de base dans de nombreuses conditions (suivi de trajectoire, intérieur/extérieur, perturbations dues au vent, poussées, hélices différentes).
English
Humans are remarkably data-efficient when adapting to new unseen conditions,
like driving a new car. In contrast, modern robotic control systems, like
neural network policies trained using Reinforcement Learning (RL), are highly
specialized for single environments. Because of this overfitting, they are
known to break down even under small differences like the Simulation-to-Reality
(Sim2Real) gap and require system identification and retraining for even
minimal changes to the system. In this work, we present RAPTOR, a method for
training a highly adaptive foundation policy for quadrotor control. Our method
enables training a single, end-to-end neural-network policy to control a wide
variety of quadrotors. We test 10 different real quadrotors from 32 g to 2.4 kg
that also differ in motor type (brushed vs. brushless), frame type (soft vs.
rigid), propeller type (2/3/4-blade), and flight controller
(PX4/Betaflight/Crazyflie/M5StampFly). We find that a tiny, three-layer policy
with only 2084 parameters is sufficient for zero-shot adaptation to a wide
variety of platforms. The adaptation through In-Context Learning is made
possible by using a recurrence in the hidden layer. The policy is trained
through a novel Meta-Imitation Learning algorithm, where we sample 1000
quadrotors and train a teacher policy for each of them using Reinforcement
Learning. Subsequently, the 1000 teachers are distilled into a single, adaptive
student policy. We find that within milliseconds, the resulting foundation
policy adapts zero-shot to unseen quadrotors. We extensively test the
capabilities of the foundation policy under numerous conditions (trajectory
tracking, indoor/outdoor, wind disturbance, poking, different propellers).