Изучение универсальных манипуляций гуманоидных роботов с помощью тактильного моделирования

Аннотация

Антропоморфные роботы сулят универсальную помощь, однако реализация локомоционно-манипуляционных задач в реальном мире остается сложной проблемой, поскольку требует обеспечения устойчивости всего тела, ловкости манипуляторов и контактно-ориентированного восприятия в условиях частых изменений контакта. В данной работе мы исследуем ловкое, насыщенное контактами манипулирование человекоподобных роботов. Сначала мы разрабатываем контроллер для всего тела на основе обучения с подкреплением (RL), который обеспечивает стабильное выполнение задач нижней частью корпуса и туловищем в процессе сложных манипуляций. На основе этого контроллера мы создаем систему сбора данных для всего тела человекоподобного робота, сочетающую телеуправление на основе виртуальной реальности (VR) с отображением движений человека на робота, что позволяет эффективно собирать демонстрации в реальном мире. Затем мы предлагаем Humanoid Transformer with Touch Dreaming (HTD) — мультимодальный трансформер архитектуры «кодировщик-декодировщик», который моделирует тактильное восприятие как ключевую модальность наряду с многоканальным зрением и проприоцепцией. HTD обучается в один этап с помощью поведенческого клонирования, дополненного «тактильным предсказанием» (touch dreaming): помимо предсказания последовательностей действий, политика предсказывает будущие усилия в суставах манипуляторов и будущие тактильные латентные состояния, побуждая общее ядро трансформера изучать контактно-ориентированные представления для ловкого взаимодействия. На пяти задачах, насыщенных контактами, — Insert-T, Book Organization, Towel Folding, Cat Litter Scooping и Tea Serving — HTD демонстрирует относительное улучшение среднего показателя успешности на 90,9% по сравнению с более сильным базовым методом. Результаты абляционных исследований дополнительно показывают, что предсказание тактильных сигналов в латентном пространстве более эффективно, чем предсказание сырых тактильных данных, давая относительный прирост успешности на 30%. Эти результаты демонстрируют, что комбинация надежного управления всем телом, масштабируемого сбора данных для человекоподобных роботов и прогнозирующего обучения, сфокусированного на тактильном восприятии, позволяет реализовать универсальное манипулирование высокой степени ловкости в реальном мире. Страница проекта: humanoid-touch-dream.github.io.

English

Humanoid robots promise general-purpose assistance, yet real-world humanoid loco-manipulation remains challenging because it requires whole-body stability, dexterous hands, and contact-aware perception under frequent contact changes. In this work, we study dexterous, contact-rich humanoid loco-manipulation. We first develop an RL-based whole-body controller that provides stable lower-body and torso execution during complex manipulation. Built on this controller, we develop a whole-body humanoid data collection system that combines VR-based teleoperation with human-to-humanoid motion mapping, enabling efficient collection of real-world demonstrations. We then propose Humanoid Transformer with Touch Dreaming (HTD), a multimodal encoder--decoder Transformer that models touch as a core modality alongside multi-view vision and proprioception. HTD is trained in a single stage with behavioral cloning augmented by touch dreaming: in addition to predicting action chunks, the policy predicts future hand-joint forces and future tactile latents, encouraging the shared Transformer trunk to learn contact-aware representations for dexterous interaction. Across five contact-rich tasks, Insert-T, Book Organization, Towel Folding, Cat Litter Scooping, and Tea Serving, HTD achieves a 90.9% relative improvement in average success rate over the stronger baseline. Ablation results further show that latent-space tactile prediction is more effective than raw tactile prediction, yielding a 30% relative gain in success rate. These results demonstrate that combining robust whole-body execution, scalable humanoid data collection, and predictive touch-centered learning enables versatile, high-dexterity humanoid manipulation in the real world. Project webpage: humanoid-touch-dream.github.io.

Изучение универсальных манипуляций гуманоидных роботов с помощью тактильного моделирования

Learning Versatile Humanoid Manipulation with Touch Dreaming

Аннотация

Support