MuJoCo-Drones-Gym : un simulateur multi-drone accéléré par GPU pour le contrôle et l'apprentissage par renforcement

Résumé

Les simulateurs robotiques constituent une pierre angulaire de la recherche moderne en robotique aérienne, servant à la fois de support pour le développement de nouveaux algorithmes de contrôle et de source de données pour l’entraînement de politiques d’apprentissage par renforcement (RL). Pourtant, les environnements d’apprentissage pour quadricoptères existants sont souvent confrontés à un compromis entre la fidélité physique, le support multi-agent et le débit nécessaire aux pipelines modernes de RL profond. Dans cet article, nous présentons MuJoCo-Drones-Gym, un environnement multi-drone open-source compatible avec Gymnasium, construit au-dessus du moteur physique MuJoCo. MuJoCo-Drones-Gym supporte un nombre arbitraire de nano-quadricoptères Bitcraze Crazyflie 2.x et expose une API modulaire permettant de choisir (i) le modèle physique (MuJoCo à corps rigide, dynamique Python explicite, ou tout sous-ensemble d’effet de sol, de traînée de pale et de downwash inter-drone), (ii) l’interface d’action (RPM par moteur, poussée normalisée collective, consignes de vitesse ou commandes de points de passage PID), et (iii) l’espace d’observation (vecteurs d’état cinématique, caméras RVB/profondeur/segmentation, ou informations d’adjacence de voisinage). Un wrapper PettingZoo ParallelEnv permet un apprentissage par renforcement multi-agent prêt à l’emploi, tandis qu’une suite de sept environnements de tâches — vol stationnaire, suivi de vitesse, vol stationnaire multi-drone, navigation par points de passage, vol en formation, course de portes et un modèle générique multi-agent — illustre l’étendue de l’interface. Nous décrivons la conception de l’environnement, la physique sous-jacente et la dynamique des quadricoptères, et illustrons son utilisation à travers des exemples de contrôle et d’apprentissage qui reflètent ceux du projet étroitement lié gym-pybullet-drones, tout en tirant parti de l’amélioration de la gestion des contacts, du rendu et de la parallélisabilité de MuJoCo.

English

Robotic simulators are a cornerstone of modern research in aerial robotics, serving both as a vehicle for the development of new control algorithms and as the data source for training reinforcement learning (RL) policies. Yet, existing quadcopter learning environments often face a trade-off between physical fidelity, multi-agent support, and the throughput required by modern deep RL pipelines. In this paper, we present MuJoCo-Drones-Gym, an open-source Gymnasium-compatible multi-drone environment built on top of the MuJoCo physics engine. MuJoCo-Drones-Gym supports an arbitrary number of Bitcraze Crazyflie 2.x nano-quadcopters and exposes a modular API for selecting (i)~the physics model (rigid-body MuJoCo, explicit Python dynamics, or any subset of ground effect, blade drag, and inter-drone downwash), (ii)~the action interface (per-motor RPMs, collective normalized thrust, velocity setpoints, or PID waypoint commands), and (iii)~the observation space (kinematic state vectors, RGB / depth / segmentation cameras, or neighbourhood adjacency information). A PettingZoo ParallelEnv wrapper enables drop-in multi-agent reinforcement learning, while a suite of seven task environments, hover, velocity tracking, multi-drone hover, waypoint navigation, formation flight, gate racing, and a generic multi-agent template, demonstrates the breadth of the interface. We describe the environment design, the underlying physics and quadcopter dynamics, and illustrate its use through control and learning examples that mirror those of the closely related gym-pybullet-drones project, while taking advantage of MuJoCo's improved contact handling, rendering, and parallelizability.