ChatPaper.aiChatPaper

Lernen vielseitiger humanoider Manipulation durch haptisches Träumen

Learning Versatile Humanoid Manipulation with Touch Dreaming

April 14, 2026
Autoren: Yaru Niu, Zhenlong Fang, Binghong Chen, Shuai Zhou, Revanth Senthilkumaran, Hao Zhang, Bingqing Chen, Chen Qiu, H. Eric Tseng, Jonathan Francis, Ding Zhao
cs.AI

Zusammenfassung

Humanoide Roboter versprechen allgemeine Assistenzfähigkeiten, doch die Loko-Manipulation in der realen Welt bleibt herausfordernd, da sie Ganzkörperstabilität, geschickte Hände und kontaktbewusste Wahrnehmung unter häufigen Kontaktänderungen erfordert. In dieser Arbeit untersuchen wir geschickte, kontaktreiche humanoide Loko-Manipulation. Wir entwickeln zunächst einen RL-basierten Ganzkörperregler, der eine stabile Ausführung mit Unterkörper und Torso während komplexer Manipulation ermöglicht. Aufbauend auf diesem Regler entwickeln wir ein Ganzkörper-Humanoid-Datenerfassungssystem, das VR-basierte Teleoperation mit Human-zu-Humanoid-Bewegungsabbildung kombiniert, um eine effiziente Erfassung von Demonstrationen in der realen Welt zu ermöglichen. Anschließend schlagen wir Humanoid Transformer with Touch Dreaming (HTD) vor, einen multimodalen Encoder-Decoder-Transformer, der Tastsinn als Kernmodalität neben Multi-View-Vision und Propriozeption modelliert. HTD wird einstufig mittels Behavioral Cloning trainiert, erweitert durch "Touch Dreaming": Zusätzlich zur Vorhersage von Aktionsblöcken sagt die Policy zukünftige Handgelenkskräfte und zukünftige taktile Latente voraus, was den gemeinsamen Transformer-Stamm dazu anregt, kontaktbewusste Repräsentationen für geschickte Interaktion zu erlernen. Über fünf kontaktreiche Aufgaben hinweg – Insert-T, Buchorganisation, Handtuchfalten, Katzenstreu-Aufschaufeln und Teeservieren – erzielt HTD eine relative Verbesserung der durchschnittlichen Erfolgsrate von 90,9 % gegenüber der stärkeren Baseline. Ablationsergebnisse zeigen weiterhin, dass taktile Vorhersage im latenten Raum wirksamer ist als Vorhersage mit Rohdaten, was einen relativen Zugewinn von 30 % in der Erfolgsrate liefert. Diese Ergebnisse demonstrieren, dass die Kombination von robuster Ganzkörperausführung, skalierbarer Humanoid-Datenerfassung und prädiktivem, tastsinnzentriertem Lernen vielseitige, hochgradig geschickte humanoide Manipulation in der realen Welt ermöglicht. Projektwebseite: humanoid-touch-dream.github.io.
English
Humanoid robots promise general-purpose assistance, yet real-world humanoid loco-manipulation remains challenging because it requires whole-body stability, dexterous hands, and contact-aware perception under frequent contact changes. In this work, we study dexterous, contact-rich humanoid loco-manipulation. We first develop an RL-based whole-body controller that provides stable lower-body and torso execution during complex manipulation. Built on this controller, we develop a whole-body humanoid data collection system that combines VR-based teleoperation with human-to-humanoid motion mapping, enabling efficient collection of real-world demonstrations. We then propose Humanoid Transformer with Touch Dreaming (HTD), a multimodal encoder--decoder Transformer that models touch as a core modality alongside multi-view vision and proprioception. HTD is trained in a single stage with behavioral cloning augmented by touch dreaming: in addition to predicting action chunks, the policy predicts future hand-joint forces and future tactile latents, encouraging the shared Transformer trunk to learn contact-aware representations for dexterous interaction. Across five contact-rich tasks, Insert-T, Book Organization, Towel Folding, Cat Litter Scooping, and Tea Serving, HTD achieves a 90.9% relative improvement in average success rate over the stronger baseline. Ablation results further show that latent-space tactile prediction is more effective than raw tactile prediction, yielding a 30% relative gain in success rate. These results demonstrate that combining robust whole-body execution, scalable humanoid data collection, and predictive touch-centered learning enables versatile, high-dexterity humanoid manipulation in the real world. Project webpage: humanoid-touch-dream.github.io.
PDF21April 16, 2026