Destreza Secuencial: Encadenamiento de Políticas Diestras para Manipulación de Largo Horizonte

Resumen

Muchas tareas de manipulación en el mundo real consisten en una serie de subtareas que son significativamente diferentes entre sí. Estas tareas complejas y de largo horizonte resaltan el potencial de las manos diestras, que poseen adaptabilidad y versatilidad, capaces de transitar sin problemas entre diferentes modos de funcionalidad sin necesidad de re-agarres o herramientas externas. Sin embargo, los desafíos surgen debido al espacio de acción de alta dimensionalidad de la mano diestra y a la dinámica composicional compleja de las tareas de largo horizonte. Presentamos Sequential Dexterity, un sistema general basado en aprendizaje por refuerzo (RL) que encadena múltiples políticas diestras para alcanzar objetivos de tareas de largo horizonte. El núcleo del sistema es una función de viabilidad de transición que ajusta progresivamente las subpolíticas para mejorar la tasa de éxito en el encadenamiento, al mismo tiempo que permite el cambio autónomo de políticas para recuperarse de fallos y omitir etapas redundantes. A pesar de haber sido entrenado únicamente en simulación con unos pocos objetos de tarea, nuestro sistema demuestra capacidad de generalización a formas de objetos novedosas y es capaz de transferir de manera zero-shot a un robot del mundo real equipado con una mano diestra. Más detalles y resultados en video pueden encontrarse en https://sequential-dexterity.github.io.

English

Many real-world manipulation tasks consist of a series of subtasks that are significantly different from one another. Such long-horizon, complex tasks highlight the potential of dexterous hands, which possess adaptability and versatility, capable of seamlessly transitioning between different modes of functionality without the need for re-grasping or external tools. However, the challenges arise due to the high-dimensional action space of dexterous hand and complex compositional dynamics of the long-horizon tasks. We present Sequential Dexterity, a general system based on reinforcement learning (RL) that chains multiple dexterous policies for achieving long-horizon task goals. The core of the system is a transition feasibility function that progressively finetunes the sub-policies for enhancing chaining success rate, while also enables autonomous policy-switching for recovery from failures and bypassing redundant stages. Despite being trained only in simulation with a few task objects, our system demonstrates generalization capability to novel object shapes and is able to zero-shot transfer to a real-world robot equipped with a dexterous hand. More details and video results could be found at https://sequential-dexterity.github.io

Destreza Secuencial: Encadenamiento de Políticas Diestras para Manipulación de Largo Horizonte

Sequential Dexterity: Chaining Dexterous Policies for Long-Horizon Manipulation

Resumen

Support