ChatPaper.aiChatPaper

Уроки из изучения навыка вращения "ручек"

Lessons from Learning to Spin "Pens"

July 26, 2024
Авторы: Jun Wang, Ying Yuan, Haichuan Che, Haozhi Qi, Yi Ma, Jitendra Malik, Xiaolong Wang
cs.AI

Аннотация

Манипулирование предметами вроде ручек - важное умение в повседневной жизни, так как многие инструменты, например, молотки и отвертки, имеют схожую форму. Однако существующие методы на основе обучения испытывают трудности с этой задачей из-за отсутствия качественных демонстраций и значительного разрыва между симуляцией и реальным миром. В данной работе мы расширяем границы систем манипуляции в руке на основе обучения, продемонстрировав способность вращать предметы вроде ручек. Сначала мы используем обучение с подкреплением для обучения оракульной политики с привилегированной информацией и создаем набор данных траекторий высокой точности в симуляции. Это служит двум целям: 1) предварительное обучение сенсорно-двигательной политики в симуляции; 2) воспроизведение траекторий в открытом цикле в реальном мире. Затем мы донастраиваем сенсорно-двигательную политику, используя эти траектории в реальном мире, чтобы адаптировать ее к динамике реального мира. С менее чем 50 траекториями наша политика учится вращать более десяти предметов вроде ручек с различными физическими свойствами на несколько оборотов. Мы представляем всесторонний анализ наших выборов дизайна и делимся уроками, извлеченными в процессе разработки.
English
In-hand manipulation of pen-like objects is an important skill in our daily lives, as many tools such as hammers and screwdrivers are similarly shaped. However, current learning-based methods struggle with this task due to a lack of high-quality demonstrations and the significant gap between simulation and the real world. In this work, we push the boundaries of learning-based in-hand manipulation systems by demonstrating the capability to spin pen-like objects. We first use reinforcement learning to train an oracle policy with privileged information and generate a high-fidelity trajectory dataset in simulation. This serves two purposes: 1) pre-training a sensorimotor policy in simulation; 2) conducting open-loop trajectory replay in the real world. We then fine-tune the sensorimotor policy using these real-world trajectories to adapt it to the real world dynamics. With less than 50 trajectories, our policy learns to rotate more than ten pen-like objects with different physical properties for multiple revolutions. We present a comprehensive analysis of our design choices and share the lessons learned during development.

Summary

AI-Generated Summary

PDF212November 28, 2024