Lezioni apprese dall'insegnamento del "giro della penna"
Lessons from Learning to Spin "Pens"
July 26, 2024
Autori: Jun Wang, Ying Yuan, Haichuan Che, Haozhi Qi, Yi Ma, Jitendra Malik, Xiaolong Wang
cs.AI
Abstract
La manipolazione manuale di oggetti simili a penne è un'abilità importante nella nostra vita quotidiana, poiché molti strumenti come martelli e cacciaviti hanno una forma analoga. Tuttavia, gli attuali metodi basati sull'apprendimento faticano a svolgere questo compito a causa della mancanza di dimostrazioni di alta qualità e del significativo divario tra simulazione e mondo reale. In questo lavoro, spingiamo i limiti dei sistemi di manipolazione manuale basati sull'apprendimento dimostrando la capacità di far ruotare oggetti simili a penne. Utilizziamo prima il reinforcement learning per addestrare una politica oracolo con informazioni privilegiate e generare un dataset di traiettorie ad alta fedeltà in simulazione. Questo serve a due scopi: 1) pre-addestrare una politica sensomotoria in simulazione; 2) eseguire la riproduzione a ciclo aperto delle traiettorie nel mondo reale. Successivamente, ottimizziamo la politica sensomotoria utilizzando queste traiettorie del mondo reale per adattarla alle dinamiche del mondo reale. Con meno di 50 traiettorie, la nostra politica impara a ruotare più di dieci oggetti simili a penne con diverse proprietà fisiche per più rivoluzioni. Presentiamo un'analisi completa delle nostre scelte progettuali e condividiamo le lezioni apprese durante lo sviluppo.
English
In-hand manipulation of pen-like objects is an important skill in our daily
lives, as many tools such as hammers and screwdrivers are similarly shaped.
However, current learning-based methods struggle with this task due to a lack
of high-quality demonstrations and the significant gap between simulation and
the real world. In this work, we push the boundaries of learning-based in-hand
manipulation systems by demonstrating the capability to spin pen-like objects.
We first use reinforcement learning to train an oracle policy with privileged
information and generate a high-fidelity trajectory dataset in simulation. This
serves two purposes: 1) pre-training a sensorimotor policy in simulation; 2)
conducting open-loop trajectory replay in the real world. We then fine-tune the
sensorimotor policy using these real-world trajectories to adapt it to the real
world dynamics. With less than 50 trajectories, our policy learns to rotate
more than ten pen-like objects with different physical properties for multiple
revolutions. We present a comprehensive analysis of our design choices and
share the lessons learned during development.