Lições da Aprendizagem de Girar "Canetas"

Resumo

A manipulação de objetos semelhantes a canetas é uma habilidade importante em nossas vidas diárias, pois muitas ferramentas, como martelos e chaves de fenda, têm formatos semelhantes. No entanto, os métodos atuais baseados em aprendizado enfrentam dificuldades nessa tarefa devido à falta de demonstrações de alta qualidade e à grande diferença entre a simulação e o mundo real. Neste trabalho, ampliamos os limites dos sistemas de manipulação em mãos baseados em aprendizado, demonstrando a capacidade de girar objetos semelhantes a canetas. Primeiramente, utilizamos o aprendizado por reforço para treinar uma política oráculo com informações privilegiadas e gerar um conjunto de dados de trajetória de alta fidelidade em simulação. Isso serve a dois propósitos: 1) pré-treinar uma política sensoriomotora em simulação; 2) realizar a reprodução de trajetória em malha aberta no mundo real. Em seguida, refinamos a política sensoriomotora usando essas trajetórias do mundo real para adaptá-la à dinâmica do mundo real. Com menos de 50 trajetórias, nossa política aprende a girar mais de dez objetos semelhantes a canetas com diferentes propriedades físicas por várias revoluções. Apresentamos uma análise abrangente de nossas escolhas de design e compartilhamos as lições aprendidas durante o desenvolvimento.

English

In-hand manipulation of pen-like objects is an important skill in our daily lives, as many tools such as hammers and screwdrivers are similarly shaped. However, current learning-based methods struggle with this task due to a lack of high-quality demonstrations and the significant gap between simulation and the real world. In this work, we push the boundaries of learning-based in-hand manipulation systems by demonstrating the capability to spin pen-like objects. We first use reinforcement learning to train an oracle policy with privileged information and generate a high-fidelity trajectory dataset in simulation. This serves two purposes: 1) pre-training a sensorimotor policy in simulation; 2) conducting open-loop trajectory replay in the real world. We then fine-tune the sensorimotor policy using these real-world trajectories to adapt it to the real world dynamics. With less than 50 trajectories, our policy learns to rotate more than ten pen-like objects with different physical properties for multiple revolutions. We present a comprehensive analysis of our design choices and share the lessons learned during development.

Lições da Aprendizagem de Girar "Canetas"

Lessons from Learning to Spin "Pens"

Resumo

Summary

Support

Support