ChatPaper.aiChatPaper

Lecciones aprendidas al aprender a hacer "malabares" con bolígrafos

Lessons from Learning to Spin "Pens"

July 26, 2024
Autores: Jun Wang, Ying Yuan, Haichuan Che, Haozhi Qi, Yi Ma, Jitendra Malik, Xiaolong Wang
cs.AI

Resumen

La manipulación en mano de objetos similares a bolígrafos es una habilidad importante en nuestra vida diaria, ya que muchas herramientas como martillos y destornilladores tienen formas similares. Sin embargo, los métodos actuales basados en aprendizaje enfrentan dificultades con esta tarea debido a la falta de demostraciones de alta calidad y la brecha significativa entre la simulación y el mundo real. En este trabajo, ampliamos los límites de los sistemas de manipulación en mano basados en aprendizaje al demostrar la capacidad de hacer girar objetos similares a bolígrafos. En primer lugar, utilizamos el aprendizaje por refuerzo para entrenar una política oráculo con información privilegiada y generar un conjunto de datos de trayectorias de alta fidelidad en simulación. Esto sirve a dos propósitos: 1) preentrenar una política sensoriomotora en simulación; 2) llevar a cabo la reproducción de trayectorias en lazo abierto en el mundo real. Luego ajustamos la política sensoriomotora utilizando estas trayectorias del mundo real para adaptarla a la dinámica del mundo real. Con menos de 50 trayectorias, nuestra política aprende a rotar más de diez objetos similares a bolígrafos con diferentes propiedades físicas para múltiples revoluciones. Presentamos un análisis exhaustivo de nuestras elecciones de diseño y compartimos las lecciones aprendidas durante el desarrollo.
English
In-hand manipulation of pen-like objects is an important skill in our daily lives, as many tools such as hammers and screwdrivers are similarly shaped. However, current learning-based methods struggle with this task due to a lack of high-quality demonstrations and the significant gap between simulation and the real world. In this work, we push the boundaries of learning-based in-hand manipulation systems by demonstrating the capability to spin pen-like objects. We first use reinforcement learning to train an oracle policy with privileged information and generate a high-fidelity trajectory dataset in simulation. This serves two purposes: 1) pre-training a sensorimotor policy in simulation; 2) conducting open-loop trajectory replay in the real world. We then fine-tune the sensorimotor policy using these real-world trajectories to adapt it to the real world dynamics. With less than 50 trajectories, our policy learns to rotate more than ten pen-like objects with different physical properties for multiple revolutions. We present a comprehensive analysis of our design choices and share the lessons learned during development.

Summary

AI-Generated Summary

PDF212November 28, 2024