Lezioni apprese dall'insegnamento del "giro della penna"

Abstract

La manipolazione manuale di oggetti simili a penne è un'abilità importante nella nostra vita quotidiana, poiché molti strumenti come martelli e cacciaviti hanno una forma analoga. Tuttavia, gli attuali metodi basati sull'apprendimento faticano a svolgere questo compito a causa della mancanza di dimostrazioni di alta qualità e del significativo divario tra simulazione e mondo reale. In questo lavoro, spingiamo i limiti dei sistemi di manipolazione manuale basati sull'apprendimento dimostrando la capacità di far ruotare oggetti simili a penne. Utilizziamo prima il reinforcement learning per addestrare una politica oracolo con informazioni privilegiate e generare un dataset di traiettorie ad alta fedeltà in simulazione. Questo serve a due scopi: 1) pre-addestrare una politica sensomotoria in simulazione; 2) eseguire la riproduzione a ciclo aperto delle traiettorie nel mondo reale. Successivamente, ottimizziamo la politica sensomotoria utilizzando queste traiettorie del mondo reale per adattarla alle dinamiche del mondo reale. Con meno di 50 traiettorie, la nostra politica impara a ruotare più di dieci oggetti simili a penne con diverse proprietà fisiche per più rivoluzioni. Presentiamo un'analisi completa delle nostre scelte progettuali e condividiamo le lezioni apprese durante lo sviluppo.

English

In-hand manipulation of pen-like objects is an important skill in our daily lives, as many tools such as hammers and screwdrivers are similarly shaped. However, current learning-based methods struggle with this task due to a lack of high-quality demonstrations and the significant gap between simulation and the real world. In this work, we push the boundaries of learning-based in-hand manipulation systems by demonstrating the capability to spin pen-like objects. We first use reinforcement learning to train an oracle policy with privileged information and generate a high-fidelity trajectory dataset in simulation. This serves two purposes: 1) pre-training a sensorimotor policy in simulation; 2) conducting open-loop trajectory replay in the real world. We then fine-tune the sensorimotor policy using these real-world trajectories to adapt it to the real world dynamics. With less than 50 trajectories, our policy learns to rotate more than ten pen-like objects with different physical properties for multiple revolutions. We present a comprehensive analysis of our design choices and share the lessons learned during development.

Lezioni apprese dall'insegnamento del "giro della penna"

Lessons from Learning to Spin "Pens"

Abstract

Support