ChatPaper.aiChatPaper

タッチドリーミングによる多様なヒューマノイド操作の学習

Learning Versatile Humanoid Manipulation with Touch Dreaming

April 14, 2026
著者: Yaru Niu, Zhenlong Fang, Binghong Chen, Shuai Zhou, Revanth Senthilkumaran, Hao Zhang, Bingqing Chen, Chen Qiu, H. Eric Tseng, Jonathan Francis, Ding Zhao
cs.AI

要旨

ヒューマノイドロボットは汎用支援の実現を約束するものの、実世界におけるヒューマノイドの移動把持(ロコマニピュレーション)は、頻繁な接触変化下での全身安定性、器用な手先、接触認識知覚を必要とするため、依然として困難な課題である。本研究では、器用的で接触の豊富なヒューマノイド移動把持に着目する。まず、複雑な把持動作中に安定した下半身と胴体の実行を実現する、強化学習(RL)ベースの全身制御器を開発する。この制御器を基盤として、VRベースの遠隔操作とヒューマンtoヒューマノイド運動マッピングを組み合わせた全身ヒューマノイドデータ収集システムを構築し、実世界での実演データの効率的な収集を可能にする。次に、Humanoid Transformer with Touch Dreaming (HTD) を提案する。これは、多視点視覚と固有受容感覚と並ぶ中核的モダリティとして触覚をモデル化する、マルチモーダルなエンコーダ・デコーダ型Transformerである。HTDは、行動クローニングに「タッチドリーミング」を拡張した単一段階の訓練を行う:行動チャンクを予測するだけでなく、ポリシーは将来の手関節力と将来の触覚潜在変数を予測し、共有Transformerトランクが器用的な相互作用のための接触認識表現を学習することを促進する。5つの接触豊富なタスク(Insert-T、書籍整理、タオル畳み、猫砂すくい、お茶出し)において、HTDはより強力なベースラインと比較して平均成功率で90.9%の相対的改善を達成した。アブレーション結果はさらに、潜在空間での触覚予測が生の触覚予測よりも効果的であり、成功率で30%の相対的向上をもたらすことを示している。これらの結果は、ロバストな全身実行、スケーラブルなヒューマノイドデータ収集、および予測的触覚中心学習を組み合わせることで、実世界における汎用的で高精度なヒューマノイド把持が可能になることを実証している。プロジェクトWebページ: humanoid-touch-dream.github.io。
English
Humanoid robots promise general-purpose assistance, yet real-world humanoid loco-manipulation remains challenging because it requires whole-body stability, dexterous hands, and contact-aware perception under frequent contact changes. In this work, we study dexterous, contact-rich humanoid loco-manipulation. We first develop an RL-based whole-body controller that provides stable lower-body and torso execution during complex manipulation. Built on this controller, we develop a whole-body humanoid data collection system that combines VR-based teleoperation with human-to-humanoid motion mapping, enabling efficient collection of real-world demonstrations. We then propose Humanoid Transformer with Touch Dreaming (HTD), a multimodal encoder--decoder Transformer that models touch as a core modality alongside multi-view vision and proprioception. HTD is trained in a single stage with behavioral cloning augmented by touch dreaming: in addition to predicting action chunks, the policy predicts future hand-joint forces and future tactile latents, encouraging the shared Transformer trunk to learn contact-aware representations for dexterous interaction. Across five contact-rich tasks, Insert-T, Book Organization, Towel Folding, Cat Litter Scooping, and Tea Serving, HTD achieves a 90.9% relative improvement in average success rate over the stronger baseline. Ablation results further show that latent-space tactile prediction is more effective than raw tactile prediction, yielding a 30% relative gain in success rate. These results demonstrate that combining robust whole-body execution, scalable humanoid data collection, and predictive touch-centered learning enables versatile, high-dexterity humanoid manipulation in the real world. Project webpage: humanoid-touch-dream.github.io.
PDF21April 16, 2026