RAPTOR: Базисная стратегия управления квадрокоптерами
RAPTOR: A Foundation Policy for Quadrotor Control
September 15, 2025
Авторы: Jonas Eschmann, Dario Albani, Giuseppe Loianno
cs.AI
Аннотация
Люди демонстрируют поразительную эффективность в использовании данных при адаптации к новым, ранее не встречавшимся условиям, например, при управлении новым автомобилем. В отличие от этого, современные системы управления роботами, такие как политики на основе нейронных сетей, обученные с использованием обучения с подкреплением (Reinforcement Learning, RL), чрезвычайно специализированы для работы в отдельных средах. Из-за этого переобучения они часто выходят из строя даже при небольших изменениях, таких как разрыв между симуляцией и реальностью (Simulation-to-Reality, Sim2Real), и требуют идентификации системы и повторного обучения даже при минимальных изменениях. В данной работе мы представляем RAPTOR — метод обучения высокоадаптивной базовой политики для управления квадрокоптерами. Наш метод позволяет обучить единую сквозную политику на основе нейронной сети для управления широким спектром квадрокоптеров. Мы тестируем 10 различных реальных квадрокоптеров массой от 32 г до 2,4 кг, которые также различаются по типу двигателей (коллекторные vs. бесколлекторные), типу рамы (мягкая vs. жесткая), типу пропеллеров (2/3/4-лопастные) и полетному контроллеру (PX4/Betaflight/Crazyflie/M5StampFly). Мы обнаружили, что крошечная политика из трех слоев с всего 2084 параметрами достаточна для адаптации без дообучения (zero-shot) к широкому спектру платформ. Адаптация через обучение в контексте (In-Context Learning) становится возможной благодаря использованию рекуррентности в скрытом слое. Политика обучается с помощью нового алгоритма Meta-Imitation Learning, где мы выбираем 1000 квадрокоптеров и обучаем учительскую политику для каждого из них с использованием обучения с подкреплением. Затем 1000 учителей объединяются в единую адаптивную студенческую политику. Мы обнаруживаем, что полученная базовая политика адаптируется без дообучения к новым квадрокоптерам за миллисекунды. Мы тщательно тестируем возможности базовой политики в различных условиях (отслеживание траектории, помещение/открытое пространство, ветровые помехи, толчки, разные пропеллеры).
English
Humans are remarkably data-efficient when adapting to new unseen conditions,
like driving a new car. In contrast, modern robotic control systems, like
neural network policies trained using Reinforcement Learning (RL), are highly
specialized for single environments. Because of this overfitting, they are
known to break down even under small differences like the Simulation-to-Reality
(Sim2Real) gap and require system identification and retraining for even
minimal changes to the system. In this work, we present RAPTOR, a method for
training a highly adaptive foundation policy for quadrotor control. Our method
enables training a single, end-to-end neural-network policy to control a wide
variety of quadrotors. We test 10 different real quadrotors from 32 g to 2.4 kg
that also differ in motor type (brushed vs. brushless), frame type (soft vs.
rigid), propeller type (2/3/4-blade), and flight controller
(PX4/Betaflight/Crazyflie/M5StampFly). We find that a tiny, three-layer policy
with only 2084 parameters is sufficient for zero-shot adaptation to a wide
variety of platforms. The adaptation through In-Context Learning is made
possible by using a recurrence in the hidden layer. The policy is trained
through a novel Meta-Imitation Learning algorithm, where we sample 1000
quadrotors and train a teacher policy for each of them using Reinforcement
Learning. Subsequently, the 1000 teachers are distilled into a single, adaptive
student policy. We find that within milliseconds, the resulting foundation
policy adapts zero-shot to unseen quadrotors. We extensively test the
capabilities of the foundation policy under numerous conditions (trajectory
tracking, indoor/outdoor, wind disturbance, poking, different propellers).