Lektionen aus dem Lernen, "Stifte" zu drehen
Lessons from Learning to Spin "Pens"
July 26, 2024
Autoren: Jun Wang, Ying Yuan, Haichuan Che, Haozhi Qi, Yi Ma, Jitendra Malik, Xiaolong Wang
cs.AI
Zusammenfassung
Die Manipulation von stiftähnlichen Objekten in der Hand ist eine wichtige Fertigkeit in unserem täglichen Leben, da viele Werkzeuge wie Hämmer und Schraubendreher ähnlich geformt sind. Allerdings haben aktuelle lernbasierte Methoden Schwierigkeiten mit dieser Aufgabe aufgrund eines Mangels an hochwertigen Demonstrationen und der signifikanten Kluft zwischen Simulation und der realen Welt. In dieser Arbeit erweitern wir die Grenzen von lernbasierten In-Hand-Manipulationssystemen, indem wir die Fähigkeit demonstrieren, stiftähnliche Objekte zu drehen. Zunächst verwenden wir Reinforcement Learning, um eine Orakel-Policy mit privilegierten Informationen zu trainieren und in der Simulation einen hochwertigen Trajektoriendatensatz zu generieren. Dies dient zwei Zwecken: 1) das Vortrainieren einer sensorimotorischen Policy in der Simulation; 2) das Durchführen einer Open-Loop-Trajektorienwiedergabe in der realen Welt. Anschließend feinabstimmen wir die sensorimotorische Policy mithilfe dieser realen Trajektorien, um sie an die Dynamik der realen Welt anzupassen. Mit weniger als 50 Trajektorien lernt unsere Policy, mehr als zehn stiftähnliche Objekte mit unterschiedlichen physikalischen Eigenschaften für mehrere Umdrehungen zu drehen. Wir präsentieren eine umfassende Analyse unserer Designentscheidungen und teilen die während der Entwicklung gewonnenen Erkenntnisse.
English
In-hand manipulation of pen-like objects is an important skill in our daily
lives, as many tools such as hammers and screwdrivers are similarly shaped.
However, current learning-based methods struggle with this task due to a lack
of high-quality demonstrations and the significant gap between simulation and
the real world. In this work, we push the boundaries of learning-based in-hand
manipulation systems by demonstrating the capability to spin pen-like objects.
We first use reinforcement learning to train an oracle policy with privileged
information and generate a high-fidelity trajectory dataset in simulation. This
serves two purposes: 1) pre-training a sensorimotor policy in simulation; 2)
conducting open-loop trajectory replay in the real world. We then fine-tune the
sensorimotor policy using these real-world trajectories to adapt it to the real
world dynamics. With less than 50 trajectories, our policy learns to rotate
more than ten pen-like objects with different physical properties for multiple
revolutions. We present a comprehensive analysis of our design choices and
share the lessons learned during development.Summary
AI-Generated Summary