ChatPaper.aiChatPaper

Apprentissage de la manipulation polyvalente pour humanoïdes par rêve tactile

Learning Versatile Humanoid Manipulation with Touch Dreaming

April 14, 2026
Auteurs: Yaru Niu, Zhenlong Fang, Binghong Chen, Shuai Zhou, Revanth Senthilkumaran, Hao Zhang, Bingqing Chen, Chen Qiu, H. Eric Tseng, Jonathan Francis, Ding Zhao
cs.AI

Résumé

Les robots humanoïdes promettent une assistance polyvalente, mais la loco-manipulation humanoïde dans le monde réel reste difficile car elle nécessite une stabilité du corps entier, des mains habiles et une perception consciente des contacts sous des changements de contact fréquents. Dans ce travail, nous étudions la loco-manipulation humanoïde habile et riche en contacts. Nous développons d'abord un contrôleur du corps entier basé sur l'apprentissage par renforcement (RL) qui assure une exécution stable du bas du corps et du torse pendant une manipulation complexe. Sur la base de ce contrôleur, nous développons un système de collecte de données humanoïdes pour le corps entier qui combine la téléopération par réalité virtuelle (VR) avec un mappage de mouvement humain-vers-humanoïde, permettant une collecte efficace de démonstrations en conditions réelles. Nous proposons ensuite Humanoid Transformer with Touch Dreaming (HTD), un Transformer encodeur-décodeur multimodal qui modélise le toucher comme une modalité centrale aux côtés de la vision multi-vues et de la proprioception. HTD est entraîné en une seule étape par clonage comportemental augmenté par le "touch dreaming" (rêve tactile) : en plus de prédire des segments d'actions, la politique prédit les forces futures aux articulations de la main et les états latents tactiles futurs, encourageant le tronc Transformer partagé à apprendre des représentations conscientes des contacts pour une interaction habile. Sur cinq tâches riches en contacts, Insert-T, Organisation de Livres, Pliage de Serviette, Ramassage de Litière pour Chat et Service de Thé, HTD obtient une amélioration relative de 90,9 % du taux de réussite moyen par rapport au meilleur modèle de référence. Les résultats d'ablation montrent en outre que la prédiction tactile dans l'espace latent est plus efficace que la prédiction tactile brute, produisant un gain relatif de 30 % du taux de réussite. Ces résultats démontrent que la combinaison d'une exécution robuste du corps entier, d'une collecte de données humanoïdes évolutive et d'un apprentissage prédictif centré sur le toucher permet une manipulation humanoïde polyvalente et de haute dextérité dans le monde réel. Page web du projet : humanoid-touch-dream.github.io.
English
Humanoid robots promise general-purpose assistance, yet real-world humanoid loco-manipulation remains challenging because it requires whole-body stability, dexterous hands, and contact-aware perception under frequent contact changes. In this work, we study dexterous, contact-rich humanoid loco-manipulation. We first develop an RL-based whole-body controller that provides stable lower-body and torso execution during complex manipulation. Built on this controller, we develop a whole-body humanoid data collection system that combines VR-based teleoperation with human-to-humanoid motion mapping, enabling efficient collection of real-world demonstrations. We then propose Humanoid Transformer with Touch Dreaming (HTD), a multimodal encoder--decoder Transformer that models touch as a core modality alongside multi-view vision and proprioception. HTD is trained in a single stage with behavioral cloning augmented by touch dreaming: in addition to predicting action chunks, the policy predicts future hand-joint forces and future tactile latents, encouraging the shared Transformer trunk to learn contact-aware representations for dexterous interaction. Across five contact-rich tasks, Insert-T, Book Organization, Towel Folding, Cat Litter Scooping, and Tea Serving, HTD achieves a 90.9% relative improvement in average success rate over the stronger baseline. Ablation results further show that latent-space tactile prediction is more effective than raw tactile prediction, yielding a 30% relative gain in success rate. These results demonstrate that combining robust whole-body execution, scalable humanoid data collection, and predictive touch-centered learning enables versatile, high-dexterity humanoid manipulation in the real world. Project webpage: humanoid-touch-dream.github.io.
PDF21April 16, 2026