RAPTOR: クアッドローター制御のための基盤ポリシー
RAPTOR: A Foundation Policy for Quadrotor Control
September 15, 2025
著者: Jonas Eschmann, Dario Albani, Giuseppe Loianno
cs.AI
要旨
人間は、新しい車を運転するなど、未知の状況に適応する際に驚くほどデータ効率が良い。一方で、強化学習(RL)を用いて訓練されたニューラルネットワークポリシーなどの現代のロボット制御システムは、単一の環境に高度に特化している。この過剰適合のため、シミュレーションと現実のギャップ(Sim2Real)のような小さな違いでも破綻し、システムの最小限の変更でもシステム同定と再訓練を必要とする。本研究では、クアッドローター制御のための高度に適応可能な基盤ポリシーを訓練する方法であるRAPTORを提案する。我々の方法は、単一のエンドツーエンドのニューラルネットワークポリシーを訓練し、多様なクアッドローターを制御することを可能にする。32gから2.4kgまでの10種類の実機クアッドローターをテストし、それらはモータータイプ(ブラシ付き vs. ブラシレス)、フレームタイプ(柔軟 vs. 剛性)、プロペラタイプ(2/3/4枚羽)、フライトコントローラー(PX4/Betaflight/Crazyflie/M5StampFly)も異なる。わずか2084パラメータの3層の小さなポリシーが、多様なプラットフォームへのゼロショット適応に十分であることを発見した。隠れ層の再帰性を使用することで、インコンテキスト学習による適応が可能となる。このポリシーは、新しいメタ模倣学習アルゴリズムを通じて訓練され、1000台のクアッドローターをサンプリングし、それぞれに対して強化学習を用いて教師ポリシーを訓練する。その後、1000の教師ポリシーを単一の適応可能な学生ポリシーに蒸留する。結果として得られた基盤ポリシーは、ミリ秒単位で未知のクアッドローターにゼロショット適応する。我々は、基盤ポリシーの能力を多数の条件下(軌道追跡、屋内/屋外、風の擾乱、突き刺し、異なるプロペラ)で広範にテストした。
English
Humans are remarkably data-efficient when adapting to new unseen conditions,
like driving a new car. In contrast, modern robotic control systems, like
neural network policies trained using Reinforcement Learning (RL), are highly
specialized for single environments. Because of this overfitting, they are
known to break down even under small differences like the Simulation-to-Reality
(Sim2Real) gap and require system identification and retraining for even
minimal changes to the system. In this work, we present RAPTOR, a method for
training a highly adaptive foundation policy for quadrotor control. Our method
enables training a single, end-to-end neural-network policy to control a wide
variety of quadrotors. We test 10 different real quadrotors from 32 g to 2.4 kg
that also differ in motor type (brushed vs. brushless), frame type (soft vs.
rigid), propeller type (2/3/4-blade), and flight controller
(PX4/Betaflight/Crazyflie/M5StampFly). We find that a tiny, three-layer policy
with only 2084 parameters is sufficient for zero-shot adaptation to a wide
variety of platforms. The adaptation through In-Context Learning is made
possible by using a recurrence in the hidden layer. The policy is trained
through a novel Meta-Imitation Learning algorithm, where we sample 1000
quadrotors and train a teacher policy for each of them using Reinforcement
Learning. Subsequently, the 1000 teachers are distilled into a single, adaptive
student policy. We find that within milliseconds, the resulting foundation
policy adapts zero-shot to unseen quadrotors. We extensively test the
capabilities of the foundation policy under numerous conditions (trajectory
tracking, indoor/outdoor, wind disturbance, poking, different propellers).