RAPTOR: Una Política Base para el Control de Cuadricópteros
RAPTOR: A Foundation Policy for Quadrotor Control
September 15, 2025
Autores: Jonas Eschmann, Dario Albani, Giuseppe Loianno
cs.AI
Resumen
Los seres humanos son notablemente eficientes en el uso de datos al adaptarse a nuevas condiciones no vistas, como conducir un automóvil nuevo. En contraste, los sistemas modernos de control robótico, como las políticas de redes neuronales entrenadas mediante Aprendizaje por Refuerzo (RL), están altamente especializados para entornos individuales. Debido a este sobreajuste, se sabe que fallan incluso ante pequeñas diferencias, como la brecha de Simulación a Realidad (Sim2Real), y requieren identificación del sistema y reentrenamiento incluso para cambios mínimos en el sistema. En este trabajo, presentamos RAPTOR, un método para entrenar una política base altamente adaptable para el control de cuadricópteros. Nuestro método permite entrenar una única política de red neuronal de extremo a extremo para controlar una amplia variedad de cuadricópteros. Probamos 10 cuadricópteros reales diferentes, desde 32 g hasta 2.4 kg, que también difieren en el tipo de motor (con escobillas vs. sin escobillas), tipo de estructura (flexible vs. rígida), tipo de hélice (2/3/4 palas) y controlador de vuelo (PX4/Betaflight/Crazyflie/M5StampFly). Encontramos que una política pequeña de tres capas con solo 2084 parámetros es suficiente para la adaptación inmediata (zero-shot) a una amplia variedad de plataformas. La adaptación mediante Aprendizaje en Contexto (In-Context Learning) se hace posible utilizando una recurrencia en la capa oculta. La política se entrena mediante un novedoso algoritmo de Meta-Aprendizaje por Imitación, donde muestreamos 1000 cuadricópteros y entrenamos una política maestra para cada uno de ellos utilizando Aprendizaje por Refuerzo. Posteriormente, las 1000 políticas maestras se destilan en una única política estudiantil adaptable. Encontramos que, en cuestión de milisegundos, la política base resultante se adapta inmediatamente (zero-shot) a cuadricópteros no vistos. Probamos exhaustivamente las capacidades de la política base bajo numerosas condiciones (seguimiento de trayectorias, interior/exterior, perturbaciones por viento, empujones, diferentes hélices).
English
Humans are remarkably data-efficient when adapting to new unseen conditions,
like driving a new car. In contrast, modern robotic control systems, like
neural network policies trained using Reinforcement Learning (RL), are highly
specialized for single environments. Because of this overfitting, they are
known to break down even under small differences like the Simulation-to-Reality
(Sim2Real) gap and require system identification and retraining for even
minimal changes to the system. In this work, we present RAPTOR, a method for
training a highly adaptive foundation policy for quadrotor control. Our method
enables training a single, end-to-end neural-network policy to control a wide
variety of quadrotors. We test 10 different real quadrotors from 32 g to 2.4 kg
that also differ in motor type (brushed vs. brushless), frame type (soft vs.
rigid), propeller type (2/3/4-blade), and flight controller
(PX4/Betaflight/Crazyflie/M5StampFly). We find that a tiny, three-layer policy
with only 2084 parameters is sufficient for zero-shot adaptation to a wide
variety of platforms. The adaptation through In-Context Learning is made
possible by using a recurrence in the hidden layer. The policy is trained
through a novel Meta-Imitation Learning algorithm, where we sample 1000
quadrotors and train a teacher policy for each of them using Reinforcement
Learning. Subsequently, the 1000 teachers are distilled into a single, adaptive
student policy. We find that within milliseconds, the resulting foundation
policy adapts zero-shot to unseen quadrotors. We extensively test the
capabilities of the foundation policy under numerous conditions (trajectory
tracking, indoor/outdoor, wind disturbance, poking, different propellers).