ChatPaper.aiChatPaper

다중 에이전트 강화 학습을 이용한 케이블 서스펜션 하중의 분산형 공중 조작

Decentralized Aerial Manipulation of a Cable-Suspended Load using Multi-Agent Reinforcement Learning

August 2, 2025
저자: Jack Zeng, Andreu Matoses Gimenez, Eugene Vinitsky, Javier Alonso-Mora, Sihao Sun
cs.AI

초록

본 논문은 마이크로 항공기(MAV) 팀을 이용하여 케이블로 매달린 하중의 실세계 6자유도 조작을 가능하게 하는 최초의 분산형 방법을 제시한다. 본 방법은 다중 에이전트 강화학습(MARL)을 활용하여 각 MAV에 대한 외부 루프 제어 정책을 학습한다. 중앙 집중형 방식을 사용하는 최신 제어기와 달리, 본 정책은 전역 상태, MAV 간 통신, 또는 인접 MAV 정보를 필요로 하지 않는다. 대신, 에이전트들은 하중 자세 관측만을 통해 암묵적으로 통신하며, 이는 높은 확장성과 유연성을 가능하게 한다. 또한, 이는 추론 시간 동안의 계산 비용을 크게 줄여 정책의 온보드 배치를 가능하게 한다. 추가적으로, 본 논문은 선형 가속도와 바디 속도를 사용한 MAV를 위한 새로운 액션 공간 설계를 소개한다. 이 선택은 견고한 저수준 제어기와 결합되어 동적 3D 운동 중 케이블 장력으로 인한 상당한 불확실성에도 불구하고 신뢰할 수 있는 시뮬레이션-실제 전이를 가능하게 한다. 본 방법은 하중 모델 불확실성 하에서의 전체 자세 제어를 포함한 다양한 실세계 실험에서 검증되었으며, 최신 중앙 집중형 방법과 비슷한 설정점 추적 성능을 보여준다. 또한, 이질적 제어 정책을 가진 에이전트 간의 협력과 한 MAV의 완전한 비행 중 손실에 대한 견고성을 입증한다. 실험 영상: https://autonomousrobots.nl/paper_websites/aerial-manipulation-marl
English
This paper presents the first decentralized method to enable real-world 6-DoF manipulation of a cable-suspended load using a team of Micro-Aerial Vehicles (MAVs). Our method leverages multi-agent reinforcement learning (MARL) to train an outer-loop control policy for each MAV. Unlike state-of-the-art controllers that utilize a centralized scheme, our policy does not require global states, inter-MAV communications, nor neighboring MAV information. Instead, agents communicate implicitly through load pose observations alone, which enables high scalability and flexibility. It also significantly reduces computing costs during inference time, enabling onboard deployment of the policy. In addition, we introduce a new action space design for the MAVs using linear acceleration and body rates. This choice, combined with a robust low-level controller, enables reliable sim-to-real transfer despite significant uncertainties caused by cable tension during dynamic 3D motion. We validate our method in various real-world experiments, including full-pose control under load model uncertainties, showing setpoint tracking performance comparable to the state-of-the-art centralized method. We also demonstrate cooperation amongst agents with heterogeneous control policies, and robustness to the complete in-flight loss of one MAV. Videos of experiments: https://autonomousrobots.nl/paper_websites/aerial-manipulation-marl
PDF32August 14, 2025