ChatPaper.aiChatPaper

HERMES: 모바일 정밀 조작을 위한 다중 소스 모션 데이터 기반 인간-로봇 체화 학습

HERMES: Human-to-Robot Embodied Learning from Multi-Source Motion Data for Mobile Dexterous Manipulation

August 27, 2025
저자: Zhecheng Yuan, Tianming Wei, Langzhe Gu, Pu Hua, Tianhai Liang, Yuanpei Chen, Huazhe Xu
cs.AI

초록

인간의 움직임 데이터를 활용하여 로봇에 다재다능한 조작 기술을 부여하는 것은 로봇 조작 분야에서 유망한 패러다임으로 부상하고 있습니다. 그러나 다중 소스의 인간 손 움직임을 실행 가능한 로봇 행동으로 변환하는 것은 여전히 어려운 과제로 남아 있으며, 특히 복잡하고 고차원적인 동작 공간을 특징으로 하는 다중 손가락 민첩한 손을 장착한 로봇의 경우 더욱 그러합니다. 더욱이, 기존 접근 방식은 다양한 환경 조건에 적응할 수 있는 정책을 생성하는 데 어려움을 겪는 경우가 많습니다. 본 논문에서는 모바일 양손 민첩 조작을 위한 인간-로봇 학습 프레임워크인 HERMES를 소개합니다. 먼저, HERMES는 다중 소스의 이질적인 인간 손 움직임을 물리적으로 타당한 로봇 행동으로 원활하게 변환할 수 있는 통합 강화 학습 접근법을 제안합니다. 다음으로, 시뮬레이션에서 실제로의 격차(sim2real gap)를 줄이기 위해, 실제 시나리오에서의 일반화를 개선하기 위한 종단 간(end-to-end) 깊이 이미지 기반 sim2real 전이 방법을 설계합니다. 또한, 다양하고 비정형적인 환경에서의 자율 작동을 가능하게 하기 위해, 시각적 목표의 정확한 정렬을 보장하고 자율 주행과 민첩한 조작을 효과적으로 연결하는 폐루프 Perspective-n-Point (PnP) 위치 결정 메커니즘을 내비게이션 기반 모델에 추가합니다. 광범위한 실험 결과는 HERMES가 다양한 실제 시나리오에서 일반화 가능한 행동을 일관되게 보여주며, 수많은 복잡한 모바일 양손 민첩 조작 작업을 성공적으로 수행함을 입증합니다. 프로젝트 페이지: https://gemcollector.github.io/HERMES/.
English
Leveraging human motion data to impart robots with versatile manipulation skills has emerged as a promising paradigm in robotic manipulation. Nevertheless, translating multi-source human hand motions into feasible robot behaviors remains challenging, particularly for robots equipped with multi-fingered dexterous hands characterized by complex, high-dimensional action spaces. Moreover, existing approaches often struggle to produce policies capable of adapting to diverse environmental conditions. In this paper, we introduce HERMES, a human-to-robot learning framework for mobile bimanual dexterous manipulation. First, HERMES formulates a unified reinforcement learning approach capable of seamlessly transforming heterogeneous human hand motions from multiple sources into physically plausible robotic behaviors. Subsequently, to mitigate the sim2real gap, we devise an end-to-end, depth image-based sim2real transfer method for improved generalization to real-world scenarios. Furthermore, to enable autonomous operation in varied and unstructured environments, we augment the navigation foundation model with a closed-loop Perspective-n-Point (PnP) localization mechanism, ensuring precise alignment of visual goals and effectively bridging autonomous navigation and dexterous manipulation. Extensive experimental results demonstrate that HERMES consistently exhibits generalizable behaviors across diverse, in-the-wild scenarios, successfully performing numerous complex mobile bimanual dexterous manipulation tasks. Project Page:https://gemcollector.github.io/HERMES/.
PDF12September 1, 2025