HERMES: Mensch-Roboter-Embodied-Learning aus multimodalen Bewegungsdaten für mobile geschickte Manipulation
HERMES: Human-to-Robot Embodied Learning from Multi-Source Motion Data for Mobile Dexterous Manipulation
August 27, 2025
papers.authors: Zhecheng Yuan, Tianming Wei, Langzhe Gu, Pu Hua, Tianhai Liang, Yuanpei Chen, Huazhe Xu
cs.AI
papers.abstract
Die Nutzung von menschlichen Bewegungsdaten, um Robotern vielseitige Manipulationsfähigkeiten zu vermitteln, hat sich als vielversprechendes Paradigma in der robotischen Manipulation etabliert. Dennoch bleibt die Übersetzung von multisourcigen menschlichen Handbewegungen in umsetzbare Roboteraktionen eine Herausforderung, insbesondere für Roboter, die mit mehrfingrigen geschickten Händen ausgestattet sind, die durch komplexe, hochdimensionale Aktionsräume gekennzeichnet sind. Darüber hinaus haben bestehende Ansätze oft Schwierigkeiten, Strategien zu entwickeln, die sich an verschiedene Umweltbedingungen anpassen können. In diesem Artikel stellen wir HERMES vor, ein Human-to-Robot-Lernframework für mobile bimanuelle geschickte Manipulation. Zunächst formuliert HERMES einen einheitlichen Reinforcement-Learning-Ansatz, der heterogene menschliche Handbewegungen aus mehreren Quellen nahtlos in physikalisch plausible Roboteraktionen umwandeln kann. Anschließend entwickeln wir, um die Sim2Real-Lücke zu verringern, eine end-to-end, tiefenbildbasierte Sim2Real-Transfermethode zur verbesserten Generalisierung auf reale Szenarien. Darüber hinaus erweitern wir das Navigationsgrundlagenmodell, um autonome Operationen in variablen und unstrukturierten Umgebungen zu ermöglichen, mit einem Closed-Loop Perspective-n-Point (PnP)-Lokalisierungsmechanismus, der eine präzise Ausrichtung der visuellen Ziele sicherstellt und so autonome Navigation und geschickte Manipulation effektiv verbindet. Umfangreiche experimentelle Ergebnisse zeigen, dass HERMES durchweg generalisierbare Verhaltensweisen in verschiedenen, realen Szenarien aufweist und erfolgreich zahlreiche komplexe mobile bimanuelle geschickte Manipulationsaufgaben durchführt. Projektseite: https://gemcollector.github.io/HERMES/.
English
Leveraging human motion data to impart robots with versatile manipulation
skills has emerged as a promising paradigm in robotic manipulation.
Nevertheless, translating multi-source human hand motions into feasible robot
behaviors remains challenging, particularly for robots equipped with
multi-fingered dexterous hands characterized by complex, high-dimensional
action spaces. Moreover, existing approaches often struggle to produce policies
capable of adapting to diverse environmental conditions. In this paper, we
introduce HERMES, a human-to-robot learning framework for mobile bimanual
dexterous manipulation. First, HERMES formulates a unified reinforcement
learning approach capable of seamlessly transforming heterogeneous human hand
motions from multiple sources into physically plausible robotic behaviors.
Subsequently, to mitigate the sim2real gap, we devise an end-to-end, depth
image-based sim2real transfer method for improved generalization to real-world
scenarios. Furthermore, to enable autonomous operation in varied and
unstructured environments, we augment the navigation foundation model with a
closed-loop Perspective-n-Point (PnP) localization mechanism, ensuring precise
alignment of visual goals and effectively bridging autonomous navigation and
dexterous manipulation. Extensive experimental results demonstrate that HERMES
consistently exhibits generalizable behaviors across diverse, in-the-wild
scenarios, successfully performing numerous complex mobile bimanual dexterous
manipulation tasks. Project Page:https://gemcollector.github.io/HERMES/.