Aprendizaje de Manipulación Versátil en Humanoides con Sueños Táctiles
Learning Versatile Humanoid Manipulation with Touch Dreaming
April 14, 2026
Autores: Yaru Niu, Zhenlong Fang, Binghong Chen, Shuai Zhou, Revanth Senthilkumaran, Hao Zhang, Bingqing Chen, Chen Qiu, H. Eric Tseng, Jonathan Francis, Ding Zhao
cs.AI
Resumen
Los robots humanoides prometen asistencia de propósito general, pero la locomoción-manipulación de humanoides en el mundo real sigue siendo un desafío, ya que requiere estabilidad corporal completa, manos diestras y percepción consciente del contacto bajo cambios frecuentes de contacto. En este trabajo, estudiamos la locomoción-manipulación diestra y rica en contactos de humanoides. Primero desarrollamos un controlador de cuerpo completo basado en RL que proporciona una ejecución estable del torso y la parte inferior del cuerpo durante manipulaciones complejas. Sobre este controlador, desarrollamos un sistema de recolección de datos para humanoides de cuerpo completo que combina la teleoperación basada en realidad virtual con el mapeo de movimiento de humano a humanoide, permitiendo la recolección eficiente de demostraciones del mundo real. Luego proponemos Humanoid Transformer with Touch Dreaming (HTD), un Transformer codificador-decodificador multimodal que modela el tacto como una modalidad central junto con la visión multi-vista y la propiocepción. HTD se entrena en una sola etapa con clonación de comportamiento aumentada por "touch dreaming": además de predecir fragmentos de acción, la política predice fuerzas futuras en las articulaciones de la mano y estados latentes táctiles futuros, incentivando que el tronco compartido del Transformer aprenda representaciones conscientes del contacto para una interacción diestra. En cinco tareas ricas en contacto, Insert-T, Organización de Libros, Doblado de Toallas, Recogida de Arena para Gatos y Servicio de Té, HTD logra una mejora relativa del 90.9% en la tasa de éxito promedio sobre el baseline más robusto. Los resultados de ablación muestran además que la predicción táctil en el espacio latente es más efectiva que la predicción táctil en bruto, produciendo una ganancia relativa del 30% en la tasa de éxito. Estos resultados demuestran que combinar una ejecución corporal completa robusta, una recolección de datos de humanoides escalable y un aprendizaje predictivo centrado en el tacto permite una manipulación versátil y de alta destreza para humanoides en el mundo real. Página del proyecto: humanoid-touch-dream.github.io.
English
Humanoid robots promise general-purpose assistance, yet real-world humanoid loco-manipulation remains challenging because it requires whole-body stability, dexterous hands, and contact-aware perception under frequent contact changes. In this work, we study dexterous, contact-rich humanoid loco-manipulation. We first develop an RL-based whole-body controller that provides stable lower-body and torso execution during complex manipulation. Built on this controller, we develop a whole-body humanoid data collection system that combines VR-based teleoperation with human-to-humanoid motion mapping, enabling efficient collection of real-world demonstrations. We then propose Humanoid Transformer with Touch Dreaming (HTD), a multimodal encoder--decoder Transformer that models touch as a core modality alongside multi-view vision and proprioception. HTD is trained in a single stage with behavioral cloning augmented by touch dreaming: in addition to predicting action chunks, the policy predicts future hand-joint forces and future tactile latents, encouraging the shared Transformer trunk to learn contact-aware representations for dexterous interaction. Across five contact-rich tasks, Insert-T, Book Organization, Towel Folding, Cat Litter Scooping, and Tea Serving, HTD achieves a 90.9% relative improvement in average success rate over the stronger baseline. Ablation results further show that latent-space tactile prediction is more effective than raw tactile prediction, yielding a 30% relative gain in success rate. These results demonstrate that combining robust whole-body execution, scalable humanoid data collection, and predictive touch-centered learning enables versatile, high-dexterity humanoid manipulation in the real world. Project webpage: humanoid-touch-dream.github.io.