分散型空中マニピュレーションによるケーブル懸垂下荷物の操作: マルチエージェント強化学習を用いたアプローチ
Decentralized Aerial Manipulation of a Cable-Suspended Load using Multi-Agent Reinforcement Learning
August 2, 2025
著者: Jack Zeng, Andreu Matoses Gimenez, Eugene Vinitsky, Javier Alonso-Mora, Sihao Sun
cs.AI
要旨
本論文は、マイクロエアリアルビークル(MAV)のチームを用いて、ケーブルで吊り下げられた荷物の現実世界での6自由度(6-DoF)操作を可能にする初の分散型手法を提案する。我々の手法は、マルチエージェント強化学習(MARL)を活用し、各MAVの外側ループ制御ポリシーを訓練する。最先端のコントローラが集中型スキームを利用するのとは異なり、我々のポリシーはグローバルな状態、MAV間の通信、または隣接するMAVの情報を必要としない。代わりに、エージェントは荷物の姿勢観測のみを通じて暗黙的に通信し、高いスケーラビリティと柔軟性を実現する。これにより、推論時の計算コストも大幅に削減され、ポリシーのオンボード展開が可能となる。さらに、MAVのための新しいアクション空間設計を、線形加速度とボディレートを用いて導入する。この選択は、堅牢な低レベルコントローラと組み合わさり、動的な3D動作中のケーブル張力による大きな不確実性にもかかわらず、信頼性の高いシミュレーションから現実への転移を可能にする。我々は、荷物モデルの不確実性下での完全姿勢制御を含む様々な現実世界の実験を通じて本手法を検証し、最先端の集中型手法に匹敵するセットポイント追従性能を示す。また、異種制御ポリシーを持つエージェント間の協調や、1台のMAVが完全に飛行中に失われた場合のロバスト性も実証する。実験の動画は以下を参照:https://autonomousrobots.nl/paper_websites/aerial-manipulation-marl
English
This paper presents the first decentralized method to enable real-world 6-DoF
manipulation of a cable-suspended load using a team of Micro-Aerial Vehicles
(MAVs). Our method leverages multi-agent reinforcement learning (MARL) to train
an outer-loop control policy for each MAV. Unlike state-of-the-art controllers
that utilize a centralized scheme, our policy does not require global states,
inter-MAV communications, nor neighboring MAV information. Instead, agents
communicate implicitly through load pose observations alone, which enables high
scalability and flexibility. It also significantly reduces computing costs
during inference time, enabling onboard deployment of the policy. In addition,
we introduce a new action space design for the MAVs using linear acceleration
and body rates. This choice, combined with a robust low-level controller,
enables reliable sim-to-real transfer despite significant uncertainties caused
by cable tension during dynamic 3D motion. We validate our method in various
real-world experiments, including full-pose control under load model
uncertainties, showing setpoint tracking performance comparable to the
state-of-the-art centralized method. We also demonstrate cooperation amongst
agents with heterogeneous control policies, and robustness to the complete
in-flight loss of one MAV. Videos of experiments:
https://autonomousrobots.nl/paper_websites/aerial-manipulation-marl