HERMES: Apprendimento Embodied da Umano a Robot tramite Dati di Movimento Multi-Sorgente per la Manipolazione Mobile e Abile
HERMES: Human-to-Robot Embodied Learning from Multi-Source Motion Data for Mobile Dexterous Manipulation
August 27, 2025
Autori: Zhecheng Yuan, Tianming Wei, Langzhe Gu, Pu Hua, Tianhai Liang, Yuanpei Chen, Huazhe Xu
cs.AI
Abstract
Sfruttare i dati del movimento umano per dotare i robot di abilità di manipolazione versatili è emerso come un paradigma promettente nella manipolazione robotica. Tuttavia, tradurre i movimenti multi-sorgente della mano umana in comportamenti robotici fattibili rimane una sfida, specialmente per i robot equipaggiati con mani multi-dita abili caratterizzate da spazi d'azione complessi e ad alta dimensionalità. Inoltre, gli approcci esistenti spesso faticano a produrre politiche in grado di adattarsi a diverse condizioni ambientali. In questo articolo, introduciamo HERMES, un framework di apprendimento da umano a robot per la manipolazione abile bimanuale mobile. In primo luogo, HERMES formula un approccio unificato di apprendimento per rinforzo in grado di trasformare in modo fluido i movimenti eterogenei della mano umana da più sorgenti in comportamenti robotici fisicamente plausibili. Successivamente, per mitigare il gap sim2real, progettiamo un metodo di trasferimento sim2real end-to-end basato su immagini di profondità per migliorare la generalizzazione agli scenari del mondo reale. Inoltre, per consentire un funzionamento autonomo in ambienti vari e non strutturati, potenziamo il modello di base di navigazione con un meccanismo di localizzazione Perspective-n-Point (PnP) a ciclo chiuso, garantendo un allineamento preciso degli obiettivi visivi e colmando efficacemente il divario tra navigazione autonoma e manipolazione abile. I risultati sperimentali estesi dimostrano che HERMES mostra costantemente comportamenti generalizzabili in una varietà di scenari in contesti reali, eseguendo con successo numerosi compiti complessi di manipolazione abile bimanuale mobile. Pagina del progetto: https://gemcollector.github.io/HERMES/.
English
Leveraging human motion data to impart robots with versatile manipulation
skills has emerged as a promising paradigm in robotic manipulation.
Nevertheless, translating multi-source human hand motions into feasible robot
behaviors remains challenging, particularly for robots equipped with
multi-fingered dexterous hands characterized by complex, high-dimensional
action spaces. Moreover, existing approaches often struggle to produce policies
capable of adapting to diverse environmental conditions. In this paper, we
introduce HERMES, a human-to-robot learning framework for mobile bimanual
dexterous manipulation. First, HERMES formulates a unified reinforcement
learning approach capable of seamlessly transforming heterogeneous human hand
motions from multiple sources into physically plausible robotic behaviors.
Subsequently, to mitigate the sim2real gap, we devise an end-to-end, depth
image-based sim2real transfer method for improved generalization to real-world
scenarios. Furthermore, to enable autonomous operation in varied and
unstructured environments, we augment the navigation foundation model with a
closed-loop Perspective-n-Point (PnP) localization mechanism, ensuring precise
alignment of visual goals and effectively bridging autonomous navigation and
dexterous manipulation. Extensive experimental results demonstrate that HERMES
consistently exhibits generalizable behaviors across diverse, in-the-wild
scenarios, successfully performing numerous complex mobile bimanual dexterous
manipulation tasks. Project Page:https://gemcollector.github.io/HERMES/.