RAPTOR: Una Política Base para el Control de Cuadricópteros

Resumen

Los seres humanos son notablemente eficientes en el uso de datos al adaptarse a nuevas condiciones no vistas, como conducir un automóvil nuevo. En contraste, los sistemas modernos de control robótico, como las políticas de redes neuronales entrenadas mediante Aprendizaje por Refuerzo (RL), están altamente especializados para entornos individuales. Debido a este sobreajuste, se sabe que fallan incluso ante pequeñas diferencias, como la brecha de Simulación a Realidad (Sim2Real), y requieren identificación del sistema y reentrenamiento incluso para cambios mínimos en el sistema. En este trabajo, presentamos RAPTOR, un método para entrenar una política base altamente adaptable para el control de cuadricópteros. Nuestro método permite entrenar una única política de red neuronal de extremo a extremo para controlar una amplia variedad de cuadricópteros. Probamos 10 cuadricópteros reales diferentes, desde 32 g hasta 2.4 kg, que también difieren en el tipo de motor (con escobillas vs. sin escobillas), tipo de estructura (flexible vs. rígida), tipo de hélice (2/3/4 palas) y controlador de vuelo (PX4/Betaflight/Crazyflie/M5StampFly). Encontramos que una política pequeña de tres capas con solo 2084 parámetros es suficiente para la adaptación inmediata (zero-shot) a una amplia variedad de plataformas. La adaptación mediante Aprendizaje en Contexto (In-Context Learning) se hace posible utilizando una recurrencia en la capa oculta. La política se entrena mediante un novedoso algoritmo de Meta-Aprendizaje por Imitación, donde muestreamos 1000 cuadricópteros y entrenamos una política maestra para cada uno de ellos utilizando Aprendizaje por Refuerzo. Posteriormente, las 1000 políticas maestras se destilan en una única política estudiantil adaptable. Encontramos que, en cuestión de milisegundos, la política base resultante se adapta inmediatamente (zero-shot) a cuadricópteros no vistos. Probamos exhaustivamente las capacidades de la política base bajo numerosas condiciones (seguimiento de trayectorias, interior/exterior, perturbaciones por viento, empujones, diferentes hélices).

English

Humans are remarkably data-efficient when adapting to new unseen conditions, like driving a new car. In contrast, modern robotic control systems, like neural network policies trained using Reinforcement Learning (RL), are highly specialized for single environments. Because of this overfitting, they are known to break down even under small differences like the Simulation-to-Reality (Sim2Real) gap and require system identification and retraining for even minimal changes to the system. In this work, we present RAPTOR, a method for training a highly adaptive foundation policy for quadrotor control. Our method enables training a single, end-to-end neural-network policy to control a wide variety of quadrotors. We test 10 different real quadrotors from 32 g to 2.4 kg that also differ in motor type (brushed vs. brushless), frame type (soft vs. rigid), propeller type (2/3/4-blade), and flight controller (PX4/Betaflight/Crazyflie/M5StampFly). We find that a tiny, three-layer policy with only 2084 parameters is sufficient for zero-shot adaptation to a wide variety of platforms. The adaptation through In-Context Learning is made possible by using a recurrence in the hidden layer. The policy is trained through a novel Meta-Imitation Learning algorithm, where we sample 1000 quadrotors and train a teacher policy for each of them using Reinforcement Learning. Subsequently, the 1000 teachers are distilled into a single, adaptive student policy. We find that within milliseconds, the resulting foundation policy adapts zero-shot to unseen quadrotors. We extensively test the capabilities of the foundation policy under numerous conditions (trajectory tracking, indoor/outdoor, wind disturbance, poking, different propellers).

RAPTOR: Una Política Base para el Control de Cuadricópteros

RAPTOR: A Foundation Policy for Quadrotor Control

Resumen

Support