ChatPaper.aiChatPaper

촉각 꿈꾸기를 통한 다재다능한 휴머노이드 조작 학습

Learning Versatile Humanoid Manipulation with Touch Dreaming

April 14, 2026
저자: Yaru Niu, Zhenlong Fang, Binghong Chen, Shuai Zhou, Revanth Senthilkumaran, Hao Zhang, Bingqing Chen, Chen Qiu, H. Eric Tseng, Jonathan Francis, Ding Zhao
cs.AI

초록

휴머노이드 로봇은 범용 지원을 가능하게 할 것으로 기대되지만, 실제 환경에서의 휴머노이드 이동-조작(loco-manipulation)은 빈번한 접촉 변화 하에서 전신 안정성, 정교한 손 제어, 그리고 접촉 인지 능력을 모두 요구하기 때문에 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 정교하고 접촉이 빈번한 휴머노이드 이동-조작을 연구합니다. 우리는 먼저 복잡한 조작 중에도 안정적인 하반신 및 몸통 실행을 제공하는 강화학습(RL) 기반 전신 제어기를 개발했습니다. 이 제어기를 기반으로 VR 기반 원격 조작과 인간-휴머노이드 모션 매핑을 결합한 전신 휴머노이드 데이터 수집 시스템을 개발하여 실제 환경 데모를 효율적으로 수집할 수 있도록 했습니다. 그런 다음 우리는 터치를 다중 뷰 비전 및 고유수용성 감각과 함께 핵심 양식으로 모델링하는 멀티모달 인코더-디코더 트랜스포머인 Humanoid Transformer with Touch Dreaming (HTD)을 제안합니다. HTD는 터치 드리밍으로 증강된 행동 복제를 통해 단일 단계로 훈련됩니다: 정책은 액션 청크를 예측하는 것 외에도 미래의 손 관절 힘과 미래의 촉각 잠재 변수를 예측하여, 공유 트랜스포머 트렁크가 정교한 상호작용을 위한 접촉 인지 표현을 학습하도록 유도합니다. 다섯 가지 접촉이 빈번한 작업(Insert-T, 책 정리, 수건 접기, 고양이 배변 처리, 차 서빙)에서 HTD는 더 강력한 베이스라인 대비 평균 성공률에서 90.9%의 상대적 개선을 달성했습니다. 추가 분석 결과는 원시 촉감 예측보다 잠재 공간 촉감 예측이 더 효과적이며, 성공률에서 30%의 상대적 이득을 가져온다는 것을 보여줍니다. 이러한 결과는 견고한 전신 실행, 확장 가능한 휴머노이드 데이터 수집, 그리고 예측적 터치 중심 학습을 결합하는 것이 실제 세계에서 다재다능하고 높은 정밀도의 휴머노이드 조작을 가능하게 함을 입증합니다. 프로젝트 웹페이지: humanoid-touch-dream.github.io.
English
Humanoid robots promise general-purpose assistance, yet real-world humanoid loco-manipulation remains challenging because it requires whole-body stability, dexterous hands, and contact-aware perception under frequent contact changes. In this work, we study dexterous, contact-rich humanoid loco-manipulation. We first develop an RL-based whole-body controller that provides stable lower-body and torso execution during complex manipulation. Built on this controller, we develop a whole-body humanoid data collection system that combines VR-based teleoperation with human-to-humanoid motion mapping, enabling efficient collection of real-world demonstrations. We then propose Humanoid Transformer with Touch Dreaming (HTD), a multimodal encoder--decoder Transformer that models touch as a core modality alongside multi-view vision and proprioception. HTD is trained in a single stage with behavioral cloning augmented by touch dreaming: in addition to predicting action chunks, the policy predicts future hand-joint forces and future tactile latents, encouraging the shared Transformer trunk to learn contact-aware representations for dexterous interaction. Across five contact-rich tasks, Insert-T, Book Organization, Towel Folding, Cat Litter Scooping, and Tea Serving, HTD achieves a 90.9% relative improvement in average success rate over the stronger baseline. Ablation results further show that latent-space tactile prediction is more effective than raw tactile prediction, yielding a 30% relative gain in success rate. These results demonstrate that combining robust whole-body execution, scalable humanoid data collection, and predictive touch-centered learning enables versatile, high-dexterity humanoid manipulation in the real world. Project webpage: humanoid-touch-dream.github.io.
PDF21April 16, 2026