SimToolReal: Uma Política de Manipulação de Ferramentas Destras com Foco em Objetos para Cenário de Zero-Shot

Resumo

A capacidade de manipular ferramentas expande significativamente o conjunto de tarefas que um robô pode executar. No entanto, a manipulação de ferramentas representa uma classe desafiadora de destreza, exigindo a preensão de objetos finos, rotações de objetos na mão e interações forçadas. Como a recolha de dados de teleoperação para estes comportamentos é difícil, a aprendizagem por reforço (RL) de simulação para realidade (sim-to-real) é uma alternativa promissora. Contudo, as abordagens anteriores normalmente exigem um esforço de engenharia substancial para modelar objetos e afinar funções de recompensa para cada tarefa. Neste trabalho, propomos o SimToolReal, dando um passo no sentido de generalizar políticas de RL sim-to-real para manipulação de ferramentas. Em vez de nos concentrarmos num único objeto e tarefa, geramos proceduralmente uma grande variedade de primitivos de objetos semelhantes a ferramentas em simulação e treinamos uma única política de RL com o objetivo universal de manipular cada objeto para poses-alvo aleatórias. Esta abordagem permite ao SimToolReal realizar uma manipulação dextra geral de ferramentas no momento do teste, sem qualquer treino específico de objeto ou tarefa. Demonstramos que o SimToolReal supera os métodos anteriores de retargeting e preensão fixa em 37%, equiparando-se ao desempenho de políticas de RL especialistas treinadas em objetos e tarefas-alvo específicos. Por fim, mostramos que o SimToolReal generaliza-se através de um conjunto diversificado de ferramentas do quotidiano, alcançando um forte desempenho zero-shot em mais de 120 rollouts no mundo real, abrangendo 24 tarefas, 12 instâncias de objetos e 6 categorias de ferramentas.

English

The ability to manipulate tools significantly expands the set of tasks a robot can perform. Yet, tool manipulation represents a challenging class of dexterity, requiring grasping thin objects, in-hand object rotations, and forceful interactions. Since collecting teleoperation data for these behaviors is challenging, sim-to-real reinforcement learning (RL) is a promising alternative. However, prior approaches typically require substantial engineering effort to model objects and tune reward functions for each task. In this work, we propose SimToolReal, taking a step towards generalizing sim-to-real RL policies for tool manipulation. Instead of focusing on a single object and task, we procedurally generate a large variety of tool-like object primitives in simulation and train a single RL policy with the universal goal of manipulating each object to random goal poses. This approach enables SimToolReal to perform general dexterous tool manipulation at test-time without any object or task-specific training. We demonstrate that SimToolReal outperforms prior retargeting and fixed-grasp methods by 37% while matching the performance of specialist RL policies trained on specific target objects and tasks. Finally, we show that SimToolReal generalizes across a diverse set of everyday tools, achieving strong zero-shot performance over 120 real-world rollouts spanning 24 tasks, 12 object instances, and 6 tool categories.