MuJoCo-Drones-Gym: Um Simulador de Múltiplos Drones Acelerado por GPU para Controle e Aprendizado por Reforço

Resumo

Simuladores robóticos são uma pedra angular da pesquisa moderna em robótica aérea, servindo tanto como veículo para o desenvolvimento de novos algoritmos de controle quanto como fonte de dados para treinamento de políticas de aprendizado por reforço (AR). No entanto, os ambientes de aprendizado para quadricópteros existentes frequentemente enfrentam um trade-off entre fidelidade física, suporte a múltiplos agentes e a taxa de transferência exigida por pipelines modernos de AR profundo. Neste artigo, apresentamos o MuJoCo-Drones-Gym, um ambiente multi-drone de código aberto compatível com Gymnasium, construído sobre o motor de física MuJoCo. O MuJoCo-Drones-Gym suporta um número arbitrário de nano-quadricópteros Bitcraze Crazyflie 2.x e expõe uma API modular para selecionar (i) o modelo físico (MuJoCo de corpo rígido, dinâmica Python explícita, ou qualquer subconjunto de efeito solo, arrasto das pás e downwash entre drones), (ii) a interface de ação (RPMs por motor, empuxo normalizado coletivo, setpoints de velocidade ou comandos de waypoint PID), e (iii) o espaço de observação (vetores de estado cinemático, câmeras RGB/profundidade/segmentação, ou informações de adjacência de vizinhança). Um wrapper PettingZoo ParallelEnv possibilita o aprendizado por reforço multiagente direto, enquanto um conjunto de sete ambientes de tarefa — pairar, rastreamento de velocidade, pairar com múltiplos drones, navegação por waypoints, voo em formação, corrida de gates e um template multiagente genérico — demonstra a amplitude da interface. Descrevemos o design do ambiente, a física subjacente e a dinâmica dos quadricópteros, e ilustramos seu uso por meio de exemplos de controle e aprendizado que espelham os do projeto relacionado gym-pybullet-drones, enquanto aproveitamos o tratamento de contato, renderização e paralelização aprimorados do MuJoCo.

English

Robotic simulators are a cornerstone of modern research in aerial robotics, serving both as a vehicle for the development of new control algorithms and as the data source for training reinforcement learning (RL) policies. Yet, existing quadcopter learning environments often face a trade-off between physical fidelity, multi-agent support, and the throughput required by modern deep RL pipelines. In this paper, we present MuJoCo-Drones-Gym, an open-source Gymnasium-compatible multi-drone environment built on top of the MuJoCo physics engine. MuJoCo-Drones-Gym supports an arbitrary number of Bitcraze Crazyflie 2.x nano-quadcopters and exposes a modular API for selecting (i)~the physics model (rigid-body MuJoCo, explicit Python dynamics, or any subset of ground effect, blade drag, and inter-drone downwash), (ii)~the action interface (per-motor RPMs, collective normalized thrust, velocity setpoints, or PID waypoint commands), and (iii)~the observation space (kinematic state vectors, RGB / depth / segmentation cameras, or neighbourhood adjacency information). A PettingZoo ParallelEnv wrapper enables drop-in multi-agent reinforcement learning, while a suite of seven task environments, hover, velocity tracking, multi-drone hover, waypoint navigation, formation flight, gate racing, and a generic multi-agent template, demonstrates the breadth of the interface. We describe the environment design, the underlying physics and quadcopter dynamics, and illustrate its use through control and learning examples that mirror those of the closely related gym-pybullet-drones project, while taking advantage of MuJoCo's improved contact handling, rendering, and parallelizability.