Lektionen aus dem Lernen, "Stifte" zu drehen

papers.abstract

Die Manipulation von stiftähnlichen Objekten in der Hand ist eine wichtige Fertigkeit in unserem täglichen Leben, da viele Werkzeuge wie Hämmer und Schraubendreher ähnlich geformt sind. Allerdings haben aktuelle lernbasierte Methoden Schwierigkeiten mit dieser Aufgabe aufgrund eines Mangels an hochwertigen Demonstrationen und der signifikanten Kluft zwischen Simulation und der realen Welt. In dieser Arbeit erweitern wir die Grenzen von lernbasierten In-Hand-Manipulationssystemen, indem wir die Fähigkeit demonstrieren, stiftähnliche Objekte zu drehen. Zunächst verwenden wir Reinforcement Learning, um eine Orakel-Policy mit privilegierten Informationen zu trainieren und in der Simulation einen hochwertigen Trajektoriendatensatz zu generieren. Dies dient zwei Zwecken: 1) das Vortrainieren einer sensorimotorischen Policy in der Simulation; 2) das Durchführen einer Open-Loop-Trajektorienwiedergabe in der realen Welt. Anschließend feinabstimmen wir die sensorimotorische Policy mithilfe dieser realen Trajektorien, um sie an die Dynamik der realen Welt anzupassen. Mit weniger als 50 Trajektorien lernt unsere Policy, mehr als zehn stiftähnliche Objekte mit unterschiedlichen physikalischen Eigenschaften für mehrere Umdrehungen zu drehen. Wir präsentieren eine umfassende Analyse unserer Designentscheidungen und teilen die während der Entwicklung gewonnenen Erkenntnisse.

English

In-hand manipulation of pen-like objects is an important skill in our daily lives, as many tools such as hammers and screwdrivers are similarly shaped. However, current learning-based methods struggle with this task due to a lack of high-quality demonstrations and the significant gap between simulation and the real world. In this work, we push the boundaries of learning-based in-hand manipulation systems by demonstrating the capability to spin pen-like objects. We first use reinforcement learning to train an oracle policy with privileged information and generate a high-fidelity trajectory dataset in simulation. This serves two purposes: 1) pre-training a sensorimotor policy in simulation; 2) conducting open-loop trajectory replay in the real world. We then fine-tune the sensorimotor policy using these real-world trajectories to adapt it to the real world dynamics. With less than 50 trajectories, our policy learns to rotate more than ten pen-like objects with different physical properties for multiple revolutions. We present a comprehensive analysis of our design choices and share the lessons learned during development.

Lektionen aus dem Lernen, "Stifte" zu drehen

Lessons from Learning to Spin "Pens"

papers.abstract

Support