Lessen uit het leren draaien van "pennen"

Samenvatting

Het manipuleren van penachtige objecten in de hand is een belangrijke vaardigheid in ons dagelijks leven, aangezien veel gereedschappen zoals hamers en schroevendraaiers een vergelijkbare vorm hebben. Huidige op leren gebaseerde methoden hebben echter moeite met deze taak vanwege een gebrek aan hoogwaardige demonstraties en de aanzienlijke kloof tussen simulatie en de echte wereld. In dit werk verleggen we de grenzen van op leren gebaseerde systemen voor manipulatie in de hand door de mogelijkheid te demonstreren om penachtige objecten te laten draaien. We gebruiken eerst reinforcement learning om een orakelbeleid te trainen met geprivilegieerde informatie en genereren een dataset met hoogwaardige trajecten in simulatie. Dit dient twee doelen: 1) het vooraf trainen van een sensorimotorisch beleid in simulatie; 2) het uitvoeren van open-loop trajectreplay in de echte wereld. Vervolgens verfijnen we het sensorimotorische beleid met behulp van deze trajecten uit de echte wereld om het aan te passen aan de dynamiek van de echte wereld. Met minder dan 50 trajecten leert ons beleid om meer dan tien penachtige objecten met verschillende fysieke eigenschappen meerdere omwentelingen te laten maken. We presenteren een uitgebreide analyse van onze ontwerpkeuzes en delen de lessen die we hebben geleerd tijdens de ontwikkeling.

English

In-hand manipulation of pen-like objects is an important skill in our daily lives, as many tools such as hammers and screwdrivers are similarly shaped. However, current learning-based methods struggle with this task due to a lack of high-quality demonstrations and the significant gap between simulation and the real world. In this work, we push the boundaries of learning-based in-hand manipulation systems by demonstrating the capability to spin pen-like objects. We first use reinforcement learning to train an oracle policy with privileged information and generate a high-fidelity trajectory dataset in simulation. This serves two purposes: 1) pre-training a sensorimotor policy in simulation; 2) conducting open-loop trajectory replay in the real world. We then fine-tune the sensorimotor policy using these real-world trajectories to adapt it to the real world dynamics. With less than 50 trajectories, our policy learns to rotate more than ten pen-like objects with different physical properties for multiple revolutions. We present a comprehensive analysis of our design choices and share the lessons learned during development.

Lessen uit het leren draaien van "pennen"

Lessons from Learning to Spin "Pens"

Samenvatting

Support