MuJoCo-Drones-Gym: Een GPU-versnelde multi-drone simulator voor besturing en bekrachtigingsleren

Samenvatting

Robotsimulatoren vormen een hoeksteen van modern onderzoek in de luchtrobotica; ze dienen zowel als vehikel voor de ontwikkeling van nieuwe regelalgoritmen als als databron voor het trainen van reinforcement learning (RL)-beleid. Toch hebben bestaande quadcopter-leeromgevingen vaak te maken met een afweging tussen fysieke getrouwheid, ondersteuning voor meerdere agenten en de doorvoersnelheid die moderne deep RL-pijplijnen vereisen. In dit artikel presenteren we MuJoCo-Drones-Gym, een open-source, Gymnasium-compatibele multi-drone omgeving gebouwd bovenop de MuJoCo-fysica-engine. MuJoCo-Drones-Gym ondersteunt een willekeurig aantal Bitcraze Crazyflie 2.x nano-quadcopters en biedt een modulaire API voor het selecteren van (i) het fysica-model (starre-lichaams MuJoCo, expliciete Python-dynamica, of een willekeurige subset van grondeffect, bladweerstand en inter-drone downwash), (ii) de actie-interface (per-motor RPM's, collectieve genormaliseerde stuwkracht, snelheidsdoelwaarden of PID-waypointcommando's), en (iii) de observatieruimte (kinematische toestandsvectoren, RGB-/diepte-/segmentatiecamera's of buurtadjacentie-informatie). Een PettingZoo ParallelEnv-wrapper maakt drop-in multi-agent reinforcement learning mogelijk, terwijl een reeks van zeven taakomgevingen – hover, snelheidsvolging, multi-drone hover, waypoint-navigatie, formatievlucht, gate racing en een generiek multi-agent sjabloon – de breedte van de interface demonstreert. We beschrijven het omgevingsontwerp, de onderliggende fysica en quadcopter-dynamica, en illustreren het gebruik ervan aan de hand van stuur- en leervoorbeelden die een afspiegeling zijn van die van het nauw verwante gym-pybullet-drones-project, terwijl we profiteren van de verbeterde contactafhandeling, rendering en paralleliseerbaarheid van MuJoCo.

English

Robotic simulators are a cornerstone of modern research in aerial robotics, serving both as a vehicle for the development of new control algorithms and as the data source for training reinforcement learning (RL) policies. Yet, existing quadcopter learning environments often face a trade-off between physical fidelity, multi-agent support, and the throughput required by modern deep RL pipelines. In this paper, we present MuJoCo-Drones-Gym, an open-source Gymnasium-compatible multi-drone environment built on top of the MuJoCo physics engine. MuJoCo-Drones-Gym supports an arbitrary number of Bitcraze Crazyflie 2.x nano-quadcopters and exposes a modular API for selecting (i)~the physics model (rigid-body MuJoCo, explicit Python dynamics, or any subset of ground effect, blade drag, and inter-drone downwash), (ii)~the action interface (per-motor RPMs, collective normalized thrust, velocity setpoints, or PID waypoint commands), and (iii)~the observation space (kinematic state vectors, RGB / depth / segmentation cameras, or neighbourhood adjacency information). A PettingZoo ParallelEnv wrapper enables drop-in multi-agent reinforcement learning, while a suite of seven task environments, hover, velocity tracking, multi-drone hover, waypoint navigation, formation flight, gate racing, and a generic multi-agent template, demonstrates the breadth of the interface. We describe the environment design, the underlying physics and quadcopter dynamics, and illustrate its use through control and learning examples that mirror those of the closely related gym-pybullet-drones project, while taking advantage of MuJoCo's improved contact handling, rendering, and parallelizability.