Lições da Aprendizagem de Girar "Canetas"
Lessons from Learning to Spin "Pens"
July 26, 2024
Autores: Jun Wang, Ying Yuan, Haichuan Che, Haozhi Qi, Yi Ma, Jitendra Malik, Xiaolong Wang
cs.AI
Resumo
A manipulação de objetos semelhantes a canetas é uma habilidade importante em nossas vidas diárias, pois muitas ferramentas, como martelos e chaves de fenda, têm formatos semelhantes. No entanto, os métodos atuais baseados em aprendizado enfrentam dificuldades nessa tarefa devido à falta de demonstrações de alta qualidade e à grande diferença entre a simulação e o mundo real. Neste trabalho, ampliamos os limites dos sistemas de manipulação em mãos baseados em aprendizado, demonstrando a capacidade de girar objetos semelhantes a canetas. Primeiramente, utilizamos o aprendizado por reforço para treinar uma política oráculo com informações privilegiadas e gerar um conjunto de dados de trajetória de alta fidelidade em simulação. Isso serve a dois propósitos: 1) pré-treinar uma política sensoriomotora em simulação; 2) realizar a reprodução de trajetória em malha aberta no mundo real. Em seguida, refinamos a política sensoriomotora usando essas trajetórias do mundo real para adaptá-la à dinâmica do mundo real. Com menos de 50 trajetórias, nossa política aprende a girar mais de dez objetos semelhantes a canetas com diferentes propriedades físicas por várias revoluções. Apresentamos uma análise abrangente de nossas escolhas de design e compartilhamos as lições aprendidas durante o desenvolvimento.
English
In-hand manipulation of pen-like objects is an important skill in our daily
lives, as many tools such as hammers and screwdrivers are similarly shaped.
However, current learning-based methods struggle with this task due to a lack
of high-quality demonstrations and the significant gap between simulation and
the real world. In this work, we push the boundaries of learning-based in-hand
manipulation systems by demonstrating the capability to spin pen-like objects.
We first use reinforcement learning to train an oracle policy with privileged
information and generate a high-fidelity trajectory dataset in simulation. This
serves two purposes: 1) pre-training a sensorimotor policy in simulation; 2)
conducting open-loop trajectory replay in the real world. We then fine-tune the
sensorimotor policy using these real-world trajectories to adapt it to the real
world dynamics. With less than 50 trajectories, our policy learns to rotate
more than ten pen-like objects with different physical properties for multiple
revolutions. We present a comprehensive analysis of our design choices and
share the lessons learned during development.Summary
AI-Generated Summary