"펜 돌리기"를 배우는 과정에서 얻은 교훈
Lessons from Learning to Spin "Pens"
July 26, 2024
저자: Jun Wang, Ying Yuan, Haichuan Che, Haozhi Qi, Yi Ma, Jitendra Malik, Xiaolong Wang
cs.AI
초록
펜 형태의 물체를 손 안에서 조작하는 능력은 일상생활에서 중요한 기술입니다. 망치나 드라이버와 같은 많은 도구들이 유사한 형태를 가지고 있기 때문입니다. 그러나 현재의 학습 기반 방법들은 고품질 데모 데이터의 부족과 시뮬레이션과 실제 세계 간의 상당한 차이로 인해 이 작업에 어려움을 겪고 있습니다. 본 연구에서는 학습 기반 손 내 조작 시스템의 한계를 넘어, 펜 형태의 물체를 회전시키는 능력을 입증합니다. 먼저, 강화 학습을 사용하여 특권 정보를 가진 오라클 정책을 훈련하고 시뮬레이션에서 고품질 궤적 데이터셋을 생성합니다. 이는 두 가지 목적을 제공합니다: 1) 시뮬레이션에서 감각운동 정책을 사전 훈련; 2) 실제 세계에서 개방 루프 궤적 재생. 그런 다음, 이러한 실제 세계 궤적을 사용하여 감각운동 정책을 미세 조정하여 실제 세계의 역학에 적응시킵니다. 50개 미만의 궤적으로, 우리의 정책은 다양한 물리적 특성을 가진 10개 이상의 펜 형태 물체를 여러 바퀴 회전시키는 방법을 학습합니다. 우리는 설계 선택에 대한 포괄적인 분석을 제시하고 개발 과정에서 얻은 교훈을 공유합니다.
English
In-hand manipulation of pen-like objects is an important skill in our daily
lives, as many tools such as hammers and screwdrivers are similarly shaped.
However, current learning-based methods struggle with this task due to a lack
of high-quality demonstrations and the significant gap between simulation and
the real world. In this work, we push the boundaries of learning-based in-hand
manipulation systems by demonstrating the capability to spin pen-like objects.
We first use reinforcement learning to train an oracle policy with privileged
information and generate a high-fidelity trajectory dataset in simulation. This
serves two purposes: 1) pre-training a sensorimotor policy in simulation; 2)
conducting open-loop trajectory replay in the real world. We then fine-tune the
sensorimotor policy using these real-world trajectories to adapt it to the real
world dynamics. With less than 50 trajectories, our policy learns to rotate
more than ten pen-like objects with different physical properties for multiple
revolutions. We present a comprehensive analysis of our design choices and
share the lessons learned during development.Summary
AI-Generated Summary