MuJoCo-Drones-Gym: Un simulador de múltiples drones acelerado por GPU para Control y Aprendizaje por Refuerzo

Resumen

Los simuladores robóticos son un pilar de la investigación moderna en robótica aérea, sirviendo tanto como vehículo para el desarrollo de nuevos algoritmos de control como fuente de datos para entrenar políticas de aprendizaje por refuerzo (RL). Sin embargo, los entornos de aprendizaje para cuadricópteros existentes a menudo enfrentan un compromiso entre la fidelidad física, el soporte multiagente y el rendimiento requerido por los pipelines modernos de RL profundo. En este artículo, presentamos MuJoCo-Drones-Gym, un entorno multiagente de código abierto compatible con Gymnasium, construido sobre el motor de física MuJoCo. MuJoCo-Drones-Gym soporta un número arbitrario de nano-cuadricópteros Bitcraze Crazyflie 2.x y expone una API modular para seleccionar (i) el modelo físico (MuJoCo de cuerpo rígido, dinámica explícita en Python, o cualquier subconjunto de efecto suelo, arrastre de palas y downwash entre drones), (ii) la interfaz de acción (RPM por motor, empuje normalizado colectivo, puntos de consigna de velocidad o comandos de waypoint PID), y (iii) el espacio de observación (vectores de estado cinemático, cámaras RGB / profundidad / segmentación, o información de adyacencia de vecindad). Un envoltorio PettingZoo ParallelEnv permite el aprendizaje por refuerzo multiagente sin modificaciones, mientras que un conjunto de siete entornos de tareas —estacionario, seguimiento de velocidad, estacionario multiagente, navegación por waypoints, vuelo en formación, carrera de puertas y una plantilla multiagente genérica— demuestra la amplitud de la interfaz. Describimos el diseño del entorno, la física subyacente y la dinámica del cuadricóptero, e ilustramos su uso mediante ejemplos de control y aprendizaje que reflejan los del proyecto estrechamente relacionado gym-pybullet-drones, aprovechando el mejor manejo de contactos, renderizado y paralelización de MuJoCo.

English

Robotic simulators are a cornerstone of modern research in aerial robotics, serving both as a vehicle for the development of new control algorithms and as the data source for training reinforcement learning (RL) policies. Yet, existing quadcopter learning environments often face a trade-off between physical fidelity, multi-agent support, and the throughput required by modern deep RL pipelines. In this paper, we present MuJoCo-Drones-Gym, an open-source Gymnasium-compatible multi-drone environment built on top of the MuJoCo physics engine. MuJoCo-Drones-Gym supports an arbitrary number of Bitcraze Crazyflie 2.x nano-quadcopters and exposes a modular API for selecting (i)~the physics model (rigid-body MuJoCo, explicit Python dynamics, or any subset of ground effect, blade drag, and inter-drone downwash), (ii)~the action interface (per-motor RPMs, collective normalized thrust, velocity setpoints, or PID waypoint commands), and (iii)~the observation space (kinematic state vectors, RGB / depth / segmentation cameras, or neighbourhood adjacency information). A PettingZoo ParallelEnv wrapper enables drop-in multi-agent reinforcement learning, while a suite of seven task environments, hover, velocity tracking, multi-drone hover, waypoint navigation, formation flight, gate racing, and a generic multi-agent template, demonstrates the breadth of the interface. We describe the environment design, the underlying physics and quadcopter dynamics, and illustrate its use through control and learning examples that mirror those of the closely related gym-pybullet-drones project, while taking advantage of MuJoCo's improved contact handling, rendering, and parallelizability.