Destreza Sequencial: Encadeamento de Políticas de Precisão para Manipulação de Longo Horizonte

Resumo

Muitas tarefas de manipulação do mundo real consistem em uma série de subtarefas que são significativamente diferentes entre si. Essas tarefas complexas de longo horizonte destacam o potencial das mãos hábeis, que possuem adaptabilidade e versatilidade, sendo capazes de transitar de forma contínua entre diferentes modos de funcionalidade sem a necessidade de reajustar o agarramento ou utilizar ferramentas externas. No entanto, os desafios surgem devido ao espaço de ação de alta dimensionalidade da mão hábil e à dinâmica composicional complexa das tarefas de longo horizonte. Apresentamos o Sequential Dexterity, um sistema geral baseado em aprendizado por reforço (RL) que encadeia múltiplas políticas hábeis para alcançar objetivos de tarefas de longo horizonte. O núcleo do sistema é uma função de viabilidade de transição que ajusta progressivamente as subpolíticas para aumentar a taxa de sucesso no encadeamento, ao mesmo tempo que permite a troca autônoma de políticas para recuperação de falhas e a superação de estágios redundantes. Apesar de ter sido treinado apenas em simulação com alguns objetos de tarefa, nosso sistema demonstra capacidade de generalização para novas formas de objetos e é capaz de transferir de forma zero-shot para um robô do mundo real equipado com uma mão hábil. Mais detalhes e resultados em vídeo podem ser encontrados em https://sequential-dexterity.github.io.

English

Many real-world manipulation tasks consist of a series of subtasks that are significantly different from one another. Such long-horizon, complex tasks highlight the potential of dexterous hands, which possess adaptability and versatility, capable of seamlessly transitioning between different modes of functionality without the need for re-grasping or external tools. However, the challenges arise due to the high-dimensional action space of dexterous hand and complex compositional dynamics of the long-horizon tasks. We present Sequential Dexterity, a general system based on reinforcement learning (RL) that chains multiple dexterous policies for achieving long-horizon task goals. The core of the system is a transition feasibility function that progressively finetunes the sub-policies for enhancing chaining success rate, while also enables autonomous policy-switching for recovery from failures and bypassing redundant stages. Despite being trained only in simulation with a few task objects, our system demonstrates generalization capability to novel object shapes and is able to zero-shot transfer to a real-world robot equipped with a dexterous hand. More details and video results could be found at https://sequential-dexterity.github.io

Destreza Sequencial: Encadeamento de Políticas de Precisão para Manipulação de Longo Horizonte

Sequential Dexterity: Chaining Dexterous Policies for Long-Horizon Manipulation

Resumo

Support