ChatPaper.aiChatPaper

Leçons tirées de l'apprentissage pour faire tourner des "stylos"

Lessons from Learning to Spin "Pens"

July 26, 2024
Auteurs: Jun Wang, Ying Yuan, Haichuan Che, Haozhi Qi, Yi Ma, Jitendra Malik, Xiaolong Wang
cs.AI

Résumé

La manipulation d'objets en forme de stylo dans la main est une compétence importante dans notre vie quotidienne, car de nombreux outils tels que les marteaux et les tournevis ont une forme similaire. Cependant, les méthodes actuelles basées sur l'apprentissage peinent à accomplir cette tâche en raison d'un manque de démonstrations de haute qualité et de l'écart significatif entre la simulation et le monde réel. Dans ce travail, nous repoussons les limites des systèmes de manipulation en main basés sur l'apprentissage en démontrant la capacité à faire tourner des objets en forme de stylo. Nous utilisons d'abord l'apprentissage par renforcement pour entraîner une politique oracle avec des informations privilégiées et générer un ensemble de données de trajectoires haute fidélité en simulation. Cela sert deux objectifs : 1) pré-entraîner une politique sensorimotrice en simulation ; 2) effectuer une relecture de trajectoire en boucle ouverte dans le monde réel. Nous affinons ensuite la politique sensorimotrice en utilisant ces trajectoires du monde réel pour l'adapter à la dynamique du monde réel. Avec moins de 50 trajectoires, notre politique apprend à faire tourner plus de dix objets en forme de stylo avec des propriétés physiques différentes pour plusieurs révolutions. Nous présentons une analyse approfondie de nos choix de conception et partageons les leçons apprises lors du développement.
English
In-hand manipulation of pen-like objects is an important skill in our daily lives, as many tools such as hammers and screwdrivers are similarly shaped. However, current learning-based methods struggle with this task due to a lack of high-quality demonstrations and the significant gap between simulation and the real world. In this work, we push the boundaries of learning-based in-hand manipulation systems by demonstrating the capability to spin pen-like objects. We first use reinforcement learning to train an oracle policy with privileged information and generate a high-fidelity trajectory dataset in simulation. This serves two purposes: 1) pre-training a sensorimotor policy in simulation; 2) conducting open-loop trajectory replay in the real world. We then fine-tune the sensorimotor policy using these real-world trajectories to adapt it to the real world dynamics. With less than 50 trajectories, our policy learns to rotate more than ten pen-like objects with different physical properties for multiple revolutions. We present a comprehensive analysis of our design choices and share the lessons learned during development.

Summary

AI-Generated Summary

PDF212November 28, 2024