Изучение универсальных манипуляций гуманоидных роботов с помощью тактильного моделирования
Learning Versatile Humanoid Manipulation with Touch Dreaming
April 14, 2026
Авторы: Yaru Niu, Zhenlong Fang, Binghong Chen, Shuai Zhou, Revanth Senthilkumaran, Hao Zhang, Bingqing Chen, Chen Qiu, H. Eric Tseng, Jonathan Francis, Ding Zhao
cs.AI
Аннотация
Антропоморфные роботы сулят универсальную помощь, однако реализация локомоционно-манипуляционных задач в реальном мире остается сложной проблемой, поскольку требует обеспечения устойчивости всего тела, ловкости манипуляторов и контактно-ориентированного восприятия в условиях частых изменений контакта. В данной работе мы исследуем ловкое, насыщенное контактами манипулирование человекоподобных роботов. Сначала мы разрабатываем контроллер для всего тела на основе обучения с подкреплением (RL), который обеспечивает стабильное выполнение задач нижней частью корпуса и туловищем в процессе сложных манипуляций. На основе этого контроллера мы создаем систему сбора данных для всего тела человекоподобного робота, сочетающую телеуправление на основе виртуальной реальности (VR) с отображением движений человека на робота, что позволяет эффективно собирать демонстрации в реальном мире. Затем мы предлагаем Humanoid Transformer with Touch Dreaming (HTD) — мультимодальный трансформер архитектуры «кодировщик-декодировщик», который моделирует тактильное восприятие как ключевую модальность наряду с многоканальным зрением и проприоцепцией. HTD обучается в один этап с помощью поведенческого клонирования, дополненного «тактильным предсказанием» (touch dreaming): помимо предсказания последовательностей действий, политика предсказывает будущие усилия в суставах манипуляторов и будущие тактильные латентные состояния, побуждая общее ядро трансформера изучать контактно-ориентированные представления для ловкого взаимодействия. На пяти задачах, насыщенных контактами, — Insert-T, Book Organization, Towel Folding, Cat Litter Scooping и Tea Serving — HTD демонстрирует относительное улучшение среднего показателя успешности на 90,9% по сравнению с более сильным базовым методом. Результаты абляционных исследований дополнительно показывают, что предсказание тактильных сигналов в латентном пространстве более эффективно, чем предсказание сырых тактильных данных, давая относительный прирост успешности на 30%. Эти результаты демонстрируют, что комбинация надежного управления всем телом, масштабируемого сбора данных для человекоподобных роботов и прогнозирующего обучения, сфокусированного на тактильном восприятии, позволяет реализовать универсальное манипулирование высокой степени ловкости в реальном мире. Страница проекта: humanoid-touch-dream.github.io.
English
Humanoid robots promise general-purpose assistance, yet real-world humanoid loco-manipulation remains challenging because it requires whole-body stability, dexterous hands, and contact-aware perception under frequent contact changes. In this work, we study dexterous, contact-rich humanoid loco-manipulation. We first develop an RL-based whole-body controller that provides stable lower-body and torso execution during complex manipulation. Built on this controller, we develop a whole-body humanoid data collection system that combines VR-based teleoperation with human-to-humanoid motion mapping, enabling efficient collection of real-world demonstrations. We then propose Humanoid Transformer with Touch Dreaming (HTD), a multimodal encoder--decoder Transformer that models touch as a core modality alongside multi-view vision and proprioception. HTD is trained in a single stage with behavioral cloning augmented by touch dreaming: in addition to predicting action chunks, the policy predicts future hand-joint forces and future tactile latents, encouraging the shared Transformer trunk to learn contact-aware representations for dexterous interaction. Across five contact-rich tasks, Insert-T, Book Organization, Towel Folding, Cat Litter Scooping, and Tea Serving, HTD achieves a 90.9% relative improvement in average success rate over the stronger baseline. Ablation results further show that latent-space tactile prediction is more effective than raw tactile prediction, yielding a 30% relative gain in success rate. These results demonstrate that combining robust whole-body execution, scalable humanoid data collection, and predictive touch-centered learning enables versatile, high-dexterity humanoid manipulation in the real world. Project webpage: humanoid-touch-dream.github.io.