MuJoCo-Drones-Gym: Ein GPU-beschleunigter Multi-Drohnen-Simulator für Steuerung und Reinforcement Learning

Zusammenfassung

Robotiksimulatoren sind ein Eckpfeiler der modernen Forschung in der Luftrobotik und dienen sowohl als Plattform für die Entwicklung neuer Regelungsalgorithmen als auch als Datenquelle für das Training von Reinforcement-Learning (RL)-Policies. Allerdings stehen bestehende Lernumgebungen für Quadrocopter oft vor einem Zielkonflikt zwischen physikalischer Genauigkeit, Multi-Agenten-Unterstützung und dem Durchsatz, der für moderne Deep-RL-Pipelines erforderlich ist. In diesem Beitrag stellen wir MuJoCo-Drones-Gym vor, eine quelloffene, Gymnasium-kompatible Multi-Drohnen-Umgebung, die auf der MuJoCo-Physik-Engine aufbaut. MuJoCo-Drones-Gym unterstützt eine beliebige Anzahl von Bitcraze Crazyflie 2.x Nano-Quadrocoptern und bietet eine modulare API zur Auswahl von (i) dem Physikmodell (Starrkörper-MuJoCo, explizite Python-Dynamik oder eine beliebige Teilmenge von Bodeneffekt, Blattwiderstand und Inter-Drohnen-Abtrieb), (ii) der Aktionsschnittstelle (RPM pro Motor, kollektiver normierter Schub, Geschwindigkeitssollwerte oder PID-Wegpunktbefehle) und (iii) dem Beobachtungsraum (kinematische Zustandsvektoren, RGB-/Tiefen-/Segmentierungskameras oder Nachbarschaftsnäheinformationen). Ein PettingZoo-ParallelEnv-Wrapper ermöglicht unmittelbares Multi-Agenten-Verstärkungslernen, während eine Suite von sieben Aufgabenumgebungen – Schweben, Geschwindigkeitsverfolgung, Multi-Drohnen-Schweben, Wegpunktnavigation, Formationsflug, Torrennen und eine generische Multi-Agenten-Vorlage – die Breite der Schnittstelle demonstriert. Wir beschreiben das Umgebungsdesign, die zugrundeliegende Physik und Quadrocopter-Dynamik und veranschaulichen die Verwendung anhand von Regelungs- und Lernbeispielen, die denen des eng verwandten Projekts gym-pybullet-drones ähneln, während wir die verbesserte Kontaktbehandlung, das Rendering und die Parallelisierbarkeit von MuJoCo nutzen.

English

Robotic simulators are a cornerstone of modern research in aerial robotics, serving both as a vehicle for the development of new control algorithms and as the data source for training reinforcement learning (RL) policies. Yet, existing quadcopter learning environments often face a trade-off between physical fidelity, multi-agent support, and the throughput required by modern deep RL pipelines. In this paper, we present MuJoCo-Drones-Gym, an open-source Gymnasium-compatible multi-drone environment built on top of the MuJoCo physics engine. MuJoCo-Drones-Gym supports an arbitrary number of Bitcraze Crazyflie 2.x nano-quadcopters and exposes a modular API for selecting (i)~the physics model (rigid-body MuJoCo, explicit Python dynamics, or any subset of ground effect, blade drag, and inter-drone downwash), (ii)~the action interface (per-motor RPMs, collective normalized thrust, velocity setpoints, or PID waypoint commands), and (iii)~the observation space (kinematic state vectors, RGB / depth / segmentation cameras, or neighbourhood adjacency information). A PettingZoo ParallelEnv wrapper enables drop-in multi-agent reinforcement learning, while a suite of seven task environments, hover, velocity tracking, multi-drone hover, waypoint navigation, formation flight, gate racing, and a generic multi-agent template, demonstrates the breadth of the interface. We describe the environment design, the underlying physics and quadcopter dynamics, and illustrate its use through control and learning examples that mirror those of the closely related gym-pybullet-drones project, while taking advantage of MuJoCo's improved contact handling, rendering, and parallelizability.