HERMES: Mens-naar-Robot Belichaamd Leren van Multi-Bron Bewegingsgegevens voor Mobiele Behendige Manipulatie
HERMES: Human-to-Robot Embodied Learning from Multi-Source Motion Data for Mobile Dexterous Manipulation
August 27, 2025
Auteurs: Zhecheng Yuan, Tianming Wei, Langzhe Gu, Pu Hua, Tianhai Liang, Yuanpei Chen, Huazhe Xu
cs.AI
Samenvatting
Het benutten van menselijke bewegingsdata om robots veelzijdige manipulatietechnieken aan te leren, is naar voren gekomen als een veelbelovend paradigma in robotmanipulatie. Desalniettemin blijft het vertalen van multi-source menselijke handbewegingen naar uitvoerbare robotgedragingen een uitdaging, vooral voor robots die zijn uitgerust met multi-vingerige behendige handen die worden gekenmerkt door complexe, hoogdimensionale actieruimten. Bovendien hebben bestaande benaderingen vaak moeite om beleidsregels te produceren die zich kunnen aanpassen aan diverse omgevingsomstandigheden. In dit artikel introduceren we HERMES, een mens-naar-robot-leerframework voor mobiele bimanuele behendige manipulatie. Ten eerste formuleert HERMES een geïntegreerde reinforcement learning-benadering die in staat is om heterogene menselijke handbewegingen uit meerdere bronnen naadloos om te zetten in fysisch plausibele robotgedragingen. Vervolgens ontwikkelen we, om de sim2real-kloof te verkleinen, een end-to-end, op dieptebeelden gebaseerde sim2real-transfermethode voor verbeterde generalisatie naar real-world scenario's. Daarnaast versterken we, om autonome werking in gevarieerde en ongestructureerde omgevingen mogelijk te maken, het navigatiestichtingsmodel met een gesloten-lus Perspective-n-Point (PnP)-localisatiemechanisme, dat zorgt voor nauwkeurige uitlijning van visuele doelen en effectief autonome navigatie en behendige manipulatie met elkaar verbindt. Uitgebreide experimentele resultaten tonen aan dat HERMES consistent generaliseerbare gedragingen vertoont in diverse, realistische scenario's, waarbij het talrijke complexe mobiele bimanuele behendige manipulatietaken succesvol uitvoert. Projectpagina: https://gemcollector.github.io/HERMES/.
English
Leveraging human motion data to impart robots with versatile manipulation
skills has emerged as a promising paradigm in robotic manipulation.
Nevertheless, translating multi-source human hand motions into feasible robot
behaviors remains challenging, particularly for robots equipped with
multi-fingered dexterous hands characterized by complex, high-dimensional
action spaces. Moreover, existing approaches often struggle to produce policies
capable of adapting to diverse environmental conditions. In this paper, we
introduce HERMES, a human-to-robot learning framework for mobile bimanual
dexterous manipulation. First, HERMES formulates a unified reinforcement
learning approach capable of seamlessly transforming heterogeneous human hand
motions from multiple sources into physically plausible robotic behaviors.
Subsequently, to mitigate the sim2real gap, we devise an end-to-end, depth
image-based sim2real transfer method for improved generalization to real-world
scenarios. Furthermore, to enable autonomous operation in varied and
unstructured environments, we augment the navigation foundation model with a
closed-loop Perspective-n-Point (PnP) localization mechanism, ensuring precise
alignment of visual goals and effectively bridging autonomous navigation and
dexterous manipulation. Extensive experimental results demonstrate that HERMES
consistently exhibits generalizable behaviors across diverse, in-the-wild
scenarios, successfully performing numerous complex mobile bimanual dexterous
manipulation tasks. Project Page:https://gemcollector.github.io/HERMES/.