HERMES: Aprendizado Corporificado de Humano para Robô a partir de Dados de Movimento Multifonte para Manipulação Móvel e Habilidosa
HERMES: Human-to-Robot Embodied Learning from Multi-Source Motion Data for Mobile Dexterous Manipulation
August 27, 2025
Autores: Zhecheng Yuan, Tianming Wei, Langzhe Gu, Pu Hua, Tianhai Liang, Yuanpei Chen, Huazhe Xu
cs.AI
Resumo
Aproveitar dados de movimento humano para dotar robôs com habilidades de manipulação versáteis emergiu como um paradigma promissor na manipulação robótica. No entanto, traduzir movimentos de mão humana de múltiplas fontes em comportamentos robóticos viáveis continua desafiador, especialmente para robôs equipados com mãos hábeis multi-dedos caracterizadas por espaços de ação complexos e de alta dimensionalidade. Além disso, as abordagens existentes frequentemente lutam para produzir políticas capazes de se adaptar a diversas condições ambientais. Neste artigo, apresentamos HERMES, um framework de aprendizado humano-para-robô para manipulação hábil bimanual móvel. Primeiro, HERMES formula uma abordagem unificada de aprendizado por reforço capaz de transformar de forma contínua movimentos heterogêneos de mão humana de múltiplas fontes em comportamentos robóticos fisicamente plausíveis. Posteriormente, para mitigar a lacuna sim2real, desenvolvemos um método de transferência sim2real baseado em imagens de profundidade de ponta a ponta para melhorar a generalização em cenários do mundo real. Além disso, para permitir operação autônoma em ambientes variados e não estruturados, aprimoramos o modelo de base de navegação com um mecanismo de localização Perspective-n-Point (PnP) em malha fechada, garantindo o alinhamento preciso de objetivos visuais e efetivamente conectando navegação autônoma e manipulação hábil. Resultados experimentais extensivos demonstram que HERMES exibe consistentemente comportamentos generalizáveis em diversos cenários do mundo real, realizando com sucesso inúmeras tarefas complexas de manipulação hábil bimanual móvel. Página do Projeto: https://gemcollector.github.io/HERMES/.
English
Leveraging human motion data to impart robots with versatile manipulation
skills has emerged as a promising paradigm in robotic manipulation.
Nevertheless, translating multi-source human hand motions into feasible robot
behaviors remains challenging, particularly for robots equipped with
multi-fingered dexterous hands characterized by complex, high-dimensional
action spaces. Moreover, existing approaches often struggle to produce policies
capable of adapting to diverse environmental conditions. In this paper, we
introduce HERMES, a human-to-robot learning framework for mobile bimanual
dexterous manipulation. First, HERMES formulates a unified reinforcement
learning approach capable of seamlessly transforming heterogeneous human hand
motions from multiple sources into physically plausible robotic behaviors.
Subsequently, to mitigate the sim2real gap, we devise an end-to-end, depth
image-based sim2real transfer method for improved generalization to real-world
scenarios. Furthermore, to enable autonomous operation in varied and
unstructured environments, we augment the navigation foundation model with a
closed-loop Perspective-n-Point (PnP) localization mechanism, ensuring precise
alignment of visual goals and effectively bridging autonomous navigation and
dexterous manipulation. Extensive experimental results demonstrate that HERMES
consistently exhibits generalizable behaviors across diverse, in-the-wild
scenarios, successfully performing numerous complex mobile bimanual dexterous
manipulation tasks. Project Page:https://gemcollector.github.io/HERMES/.