MuJoCo-Drones-Gym: симулятор множества дронов с ускорением на GPU для задач управления и обучения с подкреплением

Аннотация

Роботизированные симуляторы являются краеугольным камнем современных исследований в области аэро-робототехники, служа как средством для разработки новых алгоритмов управления, так и источником данных для обучения политик обучения с подкреплением (RL). Однако существующие среды обучения квадракоптеров часто сталкиваются с компромиссом между физической достоверностью, поддержкой нескольких агентов и пропускной способностью, необходимой для современных конвейеров глубокого RL. В данной работе мы представляем MuJoCo-Drones-Gym — открытую многодронную среду, совместимую с Gymnasium, построенную на основе физического движка MuJoCo. MuJoCo-Drones-Gym поддерживает произвольное количество нано-квадрокоптеров Bitcraze Crazyflie 2.x и предоставляет модульный API для выбора (i) физической модели (твердотельный MuJoCo, явная динамика на Python или любая комбинация эффекта земли, лобового сопротивления лопастей и взаимного нисходящего потока дронов), (ii) интерфейса действий (обороты на каждый двигатель, коллективная нормированная тяга, заданные значения скорости или команды путевых точек с ПИД-регулятором), (iii) пространства наблюдений (векторы кинематического состояния, камеры RGB / глубины / сегментации или информация о смежности соседей). Оболочка PettingZoo ParallelEnv обеспечивает бездополнительную настройку обучение с подкреплением для нескольких агентов, а набор из семи сред задач — зависание, отслеживание скорости, зависание множества дронов, навигация по путевым точкам, полёт в строю, гонки через ворота и общий шаблон для нескольких агентов — демонстрирует широту интерфейса. Мы описываем дизайн среды, лежащую в основе физику и динамику квадрокоптера, и иллюстрируем его использование на примерах управления и обучения, аналогичных примером из близкого проекта gym-pybullet-drones, используя при этом улучшенную обработку контактов, рендеринг и параллелизуемость MuJoCo.

English

Robotic simulators are a cornerstone of modern research in aerial robotics, serving both as a vehicle for the development of new control algorithms and as the data source for training reinforcement learning (RL) policies. Yet, existing quadcopter learning environments often face a trade-off between physical fidelity, multi-agent support, and the throughput required by modern deep RL pipelines. In this paper, we present MuJoCo-Drones-Gym, an open-source Gymnasium-compatible multi-drone environment built on top of the MuJoCo physics engine. MuJoCo-Drones-Gym supports an arbitrary number of Bitcraze Crazyflie 2.x nano-quadcopters and exposes a modular API for selecting (i)~the physics model (rigid-body MuJoCo, explicit Python dynamics, or any subset of ground effect, blade drag, and inter-drone downwash), (ii)~the action interface (per-motor RPMs, collective normalized thrust, velocity setpoints, or PID waypoint commands), and (iii)~the observation space (kinematic state vectors, RGB / depth / segmentation cameras, or neighbourhood adjacency information). A PettingZoo ParallelEnv wrapper enables drop-in multi-agent reinforcement learning, while a suite of seven task environments, hover, velocity tracking, multi-drone hover, waypoint navigation, formation flight, gate racing, and a generic multi-agent template, demonstrates the breadth of the interface. We describe the environment design, the underlying physics and quadcopter dynamics, and illustrate its use through control and learning examples that mirror those of the closely related gym-pybullet-drones project, while taking advantage of MuJoCo's improved contact handling, rendering, and parallelizability.