ChatPaper.aiChatPaper

Apprendimento di Manipolazione Versatile per Umanoidi con il Sogno Tattile

Learning Versatile Humanoid Manipulation with Touch Dreaming

April 14, 2026
Autori: Yaru Niu, Zhenlong Fang, Binghong Chen, Shuai Zhou, Revanth Senthilkumaran, Hao Zhang, Bingqing Chen, Chen Qiu, H. Eric Tseng, Jonathan Francis, Ding Zhao
cs.AI

Abstract

I robot umanoidi promettono un'assistenza a scopo generale, tuttavia la loco-manulazione umanoide nel mondo reale rimane una sfida poiché richiede stabilità corporea totale, mani abili e una percezione consapevole del contatto sotto frequenti cambiamenti di contatto. In questo lavoro, studiamo la loco-manipolazione umanoide abile e ricca di contatti. Sviluppiamo prima un controllore whole-body basato su RL che fornisce un'esecuzione stabile della parte inferiore del corpo e del torso durante manipolazioni complesse. Basandoci su questo controllore, sviluppiamo un sistema di raccolta dati umanoidi whole-body che combina la teleoperazione basata su realtà virtuale con il mapping del movimento da umano a umanoide, consentendo una raccolta efficiente di dimostrazioni nel mondo reale. Proponiamo quindi Humanoid Transformer with Touch Dreaming (HTD), un Transformer encoder-decoder multimodale che modella il tatto come modalità centrale insieme alla visione multiview e alla propriocezione. HTD viene addestrato in un'unica fase con cloning comportamentale aumentato dal touch dreaming: oltre a prevedere blocchi di azioni, la politica prevede le forze future sulle articolazioni della mano e i latenti tattili futuri, incoraggiando il tronco condiviso del Transformer ad apprendere rappresentazioni consapevoli del contatto per un'interazione abile. Attraverso cinque compiti ricchi di contatto, Insert-T, Organizzazione Libri, Piega Asciugamano, Raccolta Lettiera per Gatti e Servizio del Tè, HTD raggiunge un miglioramento relativo del 90,9% nel tasso di successo medio rispetto al baseline più forte. I risultati dell'ablazione mostrano inoltre che la previsione tattile nello spazio latente è più efficace della previsione tattile grezza, producendo un guadagno relativo del 30% nel tasso di successo. Questi risultati dimostrano che combinare un'esecuzione whole-body robusta, una raccolta di dati umanoidi scalabile e un apprendimento predittivo centrato sul tatto abilita una manipolazione umanoide versatile e ad alta destrezza nel mondo reale. Pagina web del progetto: humanoid-touch-dream.github.io.
English
Humanoid robots promise general-purpose assistance, yet real-world humanoid loco-manipulation remains challenging because it requires whole-body stability, dexterous hands, and contact-aware perception under frequent contact changes. In this work, we study dexterous, contact-rich humanoid loco-manipulation. We first develop an RL-based whole-body controller that provides stable lower-body and torso execution during complex manipulation. Built on this controller, we develop a whole-body humanoid data collection system that combines VR-based teleoperation with human-to-humanoid motion mapping, enabling efficient collection of real-world demonstrations. We then propose Humanoid Transformer with Touch Dreaming (HTD), a multimodal encoder--decoder Transformer that models touch as a core modality alongside multi-view vision and proprioception. HTD is trained in a single stage with behavioral cloning augmented by touch dreaming: in addition to predicting action chunks, the policy predicts future hand-joint forces and future tactile latents, encouraging the shared Transformer trunk to learn contact-aware representations for dexterous interaction. Across five contact-rich tasks, Insert-T, Book Organization, Towel Folding, Cat Litter Scooping, and Tea Serving, HTD achieves a 90.9% relative improvement in average success rate over the stronger baseline. Ablation results further show that latent-space tactile prediction is more effective than raw tactile prediction, yielding a 30% relative gain in success rate. These results demonstrate that combining robust whole-body execution, scalable humanoid data collection, and predictive touch-centered learning enables versatile, high-dexterity humanoid manipulation in the real world. Project webpage: humanoid-touch-dream.github.io.
PDF32April 18, 2026