Lessen uit het leren draaien van "pennen"
Lessons from Learning to Spin "Pens"
July 26, 2024
Auteurs: Jun Wang, Ying Yuan, Haichuan Che, Haozhi Qi, Yi Ma, Jitendra Malik, Xiaolong Wang
cs.AI
Samenvatting
Het manipuleren van penachtige objecten in de hand is een belangrijke vaardigheid in ons dagelijks leven, aangezien veel gereedschappen zoals hamers en schroevendraaiers een vergelijkbare vorm hebben. Huidige op leren gebaseerde methoden hebben echter moeite met deze taak vanwege een gebrek aan hoogwaardige demonstraties en de aanzienlijke kloof tussen simulatie en de echte wereld. In dit werk verleggen we de grenzen van op leren gebaseerde systemen voor manipulatie in de hand door de mogelijkheid te demonstreren om penachtige objecten te laten draaien. We gebruiken eerst reinforcement learning om een orakelbeleid te trainen met geprivilegieerde informatie en genereren een dataset met hoogwaardige trajecten in simulatie. Dit dient twee doelen: 1) het vooraf trainen van een sensorimotorisch beleid in simulatie; 2) het uitvoeren van open-loop trajectreplay in de echte wereld. Vervolgens verfijnen we het sensorimotorische beleid met behulp van deze trajecten uit de echte wereld om het aan te passen aan de dynamiek van de echte wereld. Met minder dan 50 trajecten leert ons beleid om meer dan tien penachtige objecten met verschillende fysieke eigenschappen meerdere omwentelingen te laten maken. We presenteren een uitgebreide analyse van onze ontwerpkeuzes en delen de lessen die we hebben geleerd tijdens de ontwikkeling.
English
In-hand manipulation of pen-like objects is an important skill in our daily
lives, as many tools such as hammers and screwdrivers are similarly shaped.
However, current learning-based methods struggle with this task due to a lack
of high-quality demonstrations and the significant gap between simulation and
the real world. In this work, we push the boundaries of learning-based in-hand
manipulation systems by demonstrating the capability to spin pen-like objects.
We first use reinforcement learning to train an oracle policy with privileged
information and generate a high-fidelity trajectory dataset in simulation. This
serves two purposes: 1) pre-training a sensorimotor policy in simulation; 2)
conducting open-loop trajectory replay in the real world. We then fine-tune the
sensorimotor policy using these real-world trajectories to adapt it to the real
world dynamics. With less than 50 trajectories, our policy learns to rotate
more than ten pen-like objects with different physical properties for multiple
revolutions. We present a comprehensive analysis of our design choices and
share the lessons learned during development.