Leren van veelzijdige humanoïde manipulatie met tactiel dromen
Learning Versatile Humanoid Manipulation with Touch Dreaming
April 14, 2026
Auteurs: Yaru Niu, Zhenlong Fang, Binghong Chen, Shuai Zhou, Revanth Senthilkumaran, Hao Zhang, Bingqing Chen, Chen Qiu, H. Eric Tseng, Jonathan Francis, Ding Zhao
cs.AI
Samenvatting
Humanoïde robots beloven algemene assistentie, maar loco-manipulatie in de echte wereld blijft een uitdaging omdat dit helelichaamsstabiliteit, behendige handen en contactbewuste perceptie vereist onder frequente contactveranderingen. In dit werk bestuderen we behendige, contactrijke humanoïde loco-manipulatie. We ontwikkelen eerst een op Reinforcement Learning (RL) gebaseerde helelichaamscontroller die zorgt voor stabiele uitvoering van het onderlichaam en de torso tijdens complexe manipulatie. Op basis van deze controller ontwikkelen we een dataverzamelsysteem voor het hele humanoïde lichaam dat VR-gebaseerde teleoperatie combineert met mens-naar-humanoïde bewegingsmapping, waardoor efficiënte verzameling van demonstraties in de echte wereld mogelijk wordt. Vervolgens stellen we Humanoid Transformer with Touch Dreaming (HTD) voor, een multimodale encoder-decoder Transformer die aanraking modelleert als een kernmodaliteit naast multi-view visie en proprioceptie. HTD wordt in één fase getraind met behavioral cloning, aangevuld met 'touch dreaming': naast het voorspellen van actiebrokken, voorspelt het beleid toekomstige handgewrichtskrachten en toekomstige tactiele latenties, wat de gedeelde Transformer-stam aanmoedigt om contactbewuste representaties te leren voor behendige interactie. Over vijf contactrijke taken - Insert-T, Boek Organisatie, Handdoek Vouwen, Kattenbak Scheppen en Theeschenken - behaalt HTD een relatieve verbetering van 90,9% in het gemiddelde slagingspercentage ten opzichte van de sterkere baseline. Ablatieresultaten tonen verder aan dat tactiele voorspelling in de latente ruimte effectiever is dan voorspelling op basis van ruwe tactiele data, wat een relatieve winst van 30% in het slagingspercentage oplevert. Deze resultaten tonen aan dat de combinatie van robuuste helelichaamsuitvoering, schaalbare humanoïde dataverzameling en voorspellend, op aanraking gericht leren veelzijdige, hoogbehendige humanoïde manipulatie in de echte wereld mogelijk maakt. Projectwebpagina: humanoid-touch-dream.github.io.
English
Humanoid robots promise general-purpose assistance, yet real-world humanoid loco-manipulation remains challenging because it requires whole-body stability, dexterous hands, and contact-aware perception under frequent contact changes. In this work, we study dexterous, contact-rich humanoid loco-manipulation. We first develop an RL-based whole-body controller that provides stable lower-body and torso execution during complex manipulation. Built on this controller, we develop a whole-body humanoid data collection system that combines VR-based teleoperation with human-to-humanoid motion mapping, enabling efficient collection of real-world demonstrations. We then propose Humanoid Transformer with Touch Dreaming (HTD), a multimodal encoder--decoder Transformer that models touch as a core modality alongside multi-view vision and proprioception. HTD is trained in a single stage with behavioral cloning augmented by touch dreaming: in addition to predicting action chunks, the policy predicts future hand-joint forces and future tactile latents, encouraging the shared Transformer trunk to learn contact-aware representations for dexterous interaction. Across five contact-rich tasks, Insert-T, Book Organization, Towel Folding, Cat Litter Scooping, and Tea Serving, HTD achieves a 90.9% relative improvement in average success rate over the stronger baseline. Ablation results further show that latent-space tactile prediction is more effective than raw tactile prediction, yielding a 30% relative gain in success rate. These results demonstrate that combining robust whole-body execution, scalable humanoid data collection, and predictive touch-centered learning enables versatile, high-dexterity humanoid manipulation in the real world. Project webpage: humanoid-touch-dream.github.io.