Destreza Secuencial: Encadenamiento de Políticas Diestras para Manipulación de Largo Horizonte
Sequential Dexterity: Chaining Dexterous Policies for Long-Horizon Manipulation
September 2, 2023
Autores: Yuanpei Chen, Chen Wang, Li Fei-Fei, C. Karen Liu
cs.AI
Resumen
Muchas tareas de manipulación en el mundo real consisten en una serie de subtareas que son significativamente diferentes entre sí. Estas tareas complejas y de largo horizonte resaltan el potencial de las manos diestras, que poseen adaptabilidad y versatilidad, capaces de transitar sin problemas entre diferentes modos de funcionalidad sin necesidad de re-agarres o herramientas externas. Sin embargo, los desafíos surgen debido al espacio de acción de alta dimensionalidad de la mano diestra y a la dinámica composicional compleja de las tareas de largo horizonte. Presentamos Sequential Dexterity, un sistema general basado en aprendizaje por refuerzo (RL) que encadena múltiples políticas diestras para alcanzar objetivos de tareas de largo horizonte. El núcleo del sistema es una función de viabilidad de transición que ajusta progresivamente las subpolíticas para mejorar la tasa de éxito en el encadenamiento, al mismo tiempo que permite el cambio autónomo de políticas para recuperarse de fallos y omitir etapas redundantes. A pesar de haber sido entrenado únicamente en simulación con unos pocos objetos de tarea, nuestro sistema demuestra capacidad de generalización a formas de objetos novedosas y es capaz de transferir de manera zero-shot a un robot del mundo real equipado con una mano diestra. Más detalles y resultados en video pueden encontrarse en https://sequential-dexterity.github.io.
English
Many real-world manipulation tasks consist of a series of subtasks that are
significantly different from one another. Such long-horizon, complex tasks
highlight the potential of dexterous hands, which possess adaptability and
versatility, capable of seamlessly transitioning between different modes of
functionality without the need for re-grasping or external tools. However, the
challenges arise due to the high-dimensional action space of dexterous hand and
complex compositional dynamics of the long-horizon tasks. We present Sequential
Dexterity, a general system based on reinforcement learning (RL) that chains
multiple dexterous policies for achieving long-horizon task goals. The core of
the system is a transition feasibility function that progressively finetunes
the sub-policies for enhancing chaining success rate, while also enables
autonomous policy-switching for recovery from failures and bypassing redundant
stages. Despite being trained only in simulation with a few task objects, our
system demonstrates generalization capability to novel object shapes and is
able to zero-shot transfer to a real-world robot equipped with a dexterous
hand. More details and video results could be found at
https://sequential-dexterity.github.io