ChatPaper.aiChatPaper

HERMES: Aprendizaje Encarnado de Humano a Robot a partir de Datos de Movimiento Multifuente para la Manipulación Diestra Móvil

HERMES: Human-to-Robot Embodied Learning from Multi-Source Motion Data for Mobile Dexterous Manipulation

August 27, 2025
Autores: Zhecheng Yuan, Tianming Wei, Langzhe Gu, Pu Hua, Tianhai Liang, Yuanpei Chen, Huazhe Xu
cs.AI

Resumen

Aprovechar los datos de movimiento humano para dotar a los robots de habilidades de manipulación versátiles ha surgido como un paradigma prometedor en la manipulación robótica. Sin embargo, traducir movimientos de la mano humana provenientes de múltiples fuentes en comportamientos viables para robots sigue siendo un desafío, especialmente para robots equipados con manos diestras multifuncionales caracterizadas por espacios de acción complejos y de alta dimensionalidad. Además, los enfoques existentes a menudo tienen dificultades para producir políticas capaces de adaptarse a diversas condiciones ambientales. En este artículo, presentamos HERMES, un marco de aprendizaje de humano a robot para la manipulación diestra bimanual móvil. En primer lugar, HERMES formula un enfoque unificado de aprendizaje por refuerzo capaz de transformar de manera fluida movimientos heterogéneos de la mano humana provenientes de múltiples fuentes en comportamientos robóticos físicamente plausibles. Posteriormente, para mitigar la brecha sim2real, diseñamos un método de transferencia sim2real basado en imágenes de profundidad de extremo a extremo para mejorar la generalización a escenarios del mundo real. Además, para permitir la operación autónoma en entornos variados y no estructurados, potenciamos el modelo base de navegación con un mecanismo de localización Perspective-n-Point (PnP) en bucle cerrado, asegurando una alineación precisa de los objetivos visuales y conectando efectivamente la navegación autónoma con la manipulación diestra. Los resultados experimentales extensivos demuestran que HERMES exhibe consistentemente comportamientos generalizables en diversos escenarios en entornos reales, realizando con éxito numerosas tareas complejas de manipulación diestra bimanual móvil. Página del proyecto: https://gemcollector.github.io/HERMES/.
English
Leveraging human motion data to impart robots with versatile manipulation skills has emerged as a promising paradigm in robotic manipulation. Nevertheless, translating multi-source human hand motions into feasible robot behaviors remains challenging, particularly for robots equipped with multi-fingered dexterous hands characterized by complex, high-dimensional action spaces. Moreover, existing approaches often struggle to produce policies capable of adapting to diverse environmental conditions. In this paper, we introduce HERMES, a human-to-robot learning framework for mobile bimanual dexterous manipulation. First, HERMES formulates a unified reinforcement learning approach capable of seamlessly transforming heterogeneous human hand motions from multiple sources into physically plausible robotic behaviors. Subsequently, to mitigate the sim2real gap, we devise an end-to-end, depth image-based sim2real transfer method for improved generalization to real-world scenarios. Furthermore, to enable autonomous operation in varied and unstructured environments, we augment the navigation foundation model with a closed-loop Perspective-n-Point (PnP) localization mechanism, ensuring precise alignment of visual goals and effectively bridging autonomous navigation and dexterous manipulation. Extensive experimental results demonstrate that HERMES consistently exhibits generalizable behaviors across diverse, in-the-wild scenarios, successfully performing numerous complex mobile bimanual dexterous manipulation tasks. Project Page:https://gemcollector.github.io/HERMES/.
PDF12September 1, 2025