HERMES: Обучение взаимодействию человека с роботом на основе мультимодальных данных о движении для мобильного манипулирования с высокой ловкостью
HERMES: Human-to-Robot Embodied Learning from Multi-Source Motion Data for Mobile Dexterous Manipulation
August 27, 2025
Авторы: Zhecheng Yuan, Tianming Wei, Langzhe Gu, Pu Hua, Tianhai Liang, Yuanpei Chen, Huazhe Xu
cs.AI
Аннотация
Использование данных о движениях человека для наделения роботов универсальными навыками манипуляции стало перспективным направлением в области робототехники. Однако преобразование многоисточниковых движений человеческой руки в выполнимые действия робота остается сложной задачей, особенно для роботов, оснащенных многофункциональными манипуляторами с высокоразмерными пространствами действий. Кроме того, существующие подходы часто не способны создавать стратегии, адаптирующиеся к различным условиям окружающей среды. В данной работе мы представляем HERMES — фреймворк для обучения роботов на основе данных о движениях человека, предназначенный для мобильной двуручной манипуляции. Во-первых, HERMES предлагает унифицированный подход на основе обучения с подкреплением, который позволяет преобразовывать разнородные движения человеческой руки из нескольких источников в физически правдоподобные действия робота. Затем, для сокращения разрыва между симуляцией и реальностью, мы разрабатываем метод сквозного переноса на основе глубинных изображений, улучшающий обобщение на реальные сценарии. Кроме того, для обеспечения автономной работы в разнообразных и неструктурированных средах, мы дополняем базовую модель навигации механизмом локации на основе замкнутого цикла Perspective-n-Point (PnP), что обеспечивает точное выравнивание визуальных целей и эффективно связывает автономную навигацию с манипуляцией. Результаты многочисленных экспериментов демонстрируют, что HERMES стабильно проявляет обобщаемые поведенческие паттерны в разнообразных реальных сценариях, успешно выполняя множество сложных задач мобильной двуручной манипуляции. Страница проекта: https://gemcollector.github.io/HERMES/.
English
Leveraging human motion data to impart robots with versatile manipulation
skills has emerged as a promising paradigm in robotic manipulation.
Nevertheless, translating multi-source human hand motions into feasible robot
behaviors remains challenging, particularly for robots equipped with
multi-fingered dexterous hands characterized by complex, high-dimensional
action spaces. Moreover, existing approaches often struggle to produce policies
capable of adapting to diverse environmental conditions. In this paper, we
introduce HERMES, a human-to-robot learning framework for mobile bimanual
dexterous manipulation. First, HERMES formulates a unified reinforcement
learning approach capable of seamlessly transforming heterogeneous human hand
motions from multiple sources into physically plausible robotic behaviors.
Subsequently, to mitigate the sim2real gap, we devise an end-to-end, depth
image-based sim2real transfer method for improved generalization to real-world
scenarios. Furthermore, to enable autonomous operation in varied and
unstructured environments, we augment the navigation foundation model with a
closed-loop Perspective-n-Point (PnP) localization mechanism, ensuring precise
alignment of visual goals and effectively bridging autonomous navigation and
dexterous manipulation. Extensive experimental results demonstrate that HERMES
consistently exhibits generalizable behaviors across diverse, in-the-wild
scenarios, successfully performing numerous complex mobile bimanual dexterous
manipulation tasks. Project Page:https://gemcollector.github.io/HERMES/.