RAPTOR: Uma Política Base para Controle de Quadrirrotores
RAPTOR: A Foundation Policy for Quadrotor Control
September 15, 2025
Autores: Jonas Eschmann, Dario Albani, Giuseppe Loianno
cs.AI
Resumo
Os seres humanos são notavelmente eficientes no uso de dados ao se adaptarem a novas condições não vistas anteriormente, como dirigir um carro novo. Em contraste, os sistemas modernos de controle robótico, como políticas de redes neurais treinadas com Aprendizado por Reforço (RL), são altamente especializados para ambientes únicos. Devido a esse superajuste, sabe-se que eles falham mesmo sob pequenas diferenças, como a lacuna Simulação-Realidade (Sim2Real), e exigem identificação do sistema e retreinamento até mesmo para mudanças mínimas no sistema. Neste trabalho, apresentamos o RAPTOR, um método para treinar uma política de base altamente adaptável para o controle de quadrirotor. Nosso método permite treinar uma única política de rede neural de ponta a ponta para controlar uma ampla variedade de quadrirotores. Testamos 10 quadrirotores reais diferentes, variando de 32 g a 2,4 kg, que também diferem em tipo de motor (escovado vs. sem escova), tipo de estrutura (flexível vs. rígida), tipo de hélice (2/3/4 pás) e controlador de voo (PX4/Betaflight/Crazyflie/M5StampFly). Descobrimos que uma pequena política de três camadas com apenas 2084 parâmetros é suficiente para a adaptação zero-shot a uma ampla variedade de plataformas. A adaptação por meio de Aprendizado em Contexto é possibilitada pelo uso de uma recorrência na camada oculta. A política é treinada por meio de um novo algoritmo de Meta-Aprendizado por Imitação, onde amostramos 1000 quadrirotores e treinamos uma política de professor para cada um deles usando Aprendizado por Reforço. Posteriormente, os 1000 professores são destilados em uma única política de estudante adaptável. Descobrimos que, em milissegundos, a política de base resultante se adapta zero-shot a quadrirotores não vistos anteriormente. Testamos extensivamente as capacidades da política de base sob diversas condições (rastreamento de trajetória, interno/externo, distúrbio de vento, empurrões, diferentes hélices).
English
Humans are remarkably data-efficient when adapting to new unseen conditions,
like driving a new car. In contrast, modern robotic control systems, like
neural network policies trained using Reinforcement Learning (RL), are highly
specialized for single environments. Because of this overfitting, they are
known to break down even under small differences like the Simulation-to-Reality
(Sim2Real) gap and require system identification and retraining for even
minimal changes to the system. In this work, we present RAPTOR, a method for
training a highly adaptive foundation policy for quadrotor control. Our method
enables training a single, end-to-end neural-network policy to control a wide
variety of quadrotors. We test 10 different real quadrotors from 32 g to 2.4 kg
that also differ in motor type (brushed vs. brushless), frame type (soft vs.
rigid), propeller type (2/3/4-blade), and flight controller
(PX4/Betaflight/Crazyflie/M5StampFly). We find that a tiny, three-layer policy
with only 2084 parameters is sufficient for zero-shot adaptation to a wide
variety of platforms. The adaptation through In-Context Learning is made
possible by using a recurrence in the hidden layer. The policy is trained
through a novel Meta-Imitation Learning algorithm, where we sample 1000
quadrotors and train a teacher policy for each of them using Reinforcement
Learning. Subsequently, the 1000 teachers are distilled into a single, adaptive
student policy. We find that within milliseconds, the resulting foundation
policy adapts zero-shot to unseen quadrotors. We extensively test the
capabilities of the foundation policy under numerous conditions (trajectory
tracking, indoor/outdoor, wind disturbance, poking, different propellers).