Последовательная ловкость: объединение ловких стратегий для манипуляций с длительным горизонтом
Sequential Dexterity: Chaining Dexterous Policies for Long-Horizon Manipulation
September 2, 2023
Авторы: Yuanpei Chen, Chen Wang, Li Fei-Fei, C. Karen Liu
cs.AI
Аннотация
Многие задачи манипуляции в реальном мире состоят из серии подзадач, которые значительно отличаются друг от друга. Такие долгосрочные и сложные задачи подчеркивают потенциал ловких манипуляторов, которые обладают адаптивностью и универсальностью, способны плавно переключаться между различными режимами функционирования без необходимости повторного захвата или использования внешних инструментов. Однако возникают сложности из-за высокоразмерного пространства действий ловкого манипулятора и сложной композиционной динамики долгосрочных задач. Мы представляем Sequential Dexterity — универсальную систему, основанную на обучении с подкреплением (RL), которая объединяет несколько политик для ловких манипуляций с целью достижения долгосрочных задач. Основой системы является функция оценки осуществимости переходов, которая постепенно дорабатывает подполитики для повышения успешности их объединения, а также обеспечивает автономное переключение политик для восстановления после сбоев и пропуска избыточных этапов. Несмотря на обучение только в симуляции с использованием ограниченного набора объектов, наша система демонстрирует способность к обобщению на новые формы объектов и может быть перенесена без дообучения на реального робота, оснащенного ловким манипулятором. Дополнительные подробности и видеорезультаты доступны по ссылке: https://sequential-dexterity.github.io.
English
Many real-world manipulation tasks consist of a series of subtasks that are
significantly different from one another. Such long-horizon, complex tasks
highlight the potential of dexterous hands, which possess adaptability and
versatility, capable of seamlessly transitioning between different modes of
functionality without the need for re-grasping or external tools. However, the
challenges arise due to the high-dimensional action space of dexterous hand and
complex compositional dynamics of the long-horizon tasks. We present Sequential
Dexterity, a general system based on reinforcement learning (RL) that chains
multiple dexterous policies for achieving long-horizon task goals. The core of
the system is a transition feasibility function that progressively finetunes
the sub-policies for enhancing chaining success rate, while also enables
autonomous policy-switching for recovery from failures and bypassing redundant
stages. Despite being trained only in simulation with a few task objects, our
system demonstrates generalization capability to novel object shapes and is
able to zero-shot transfer to a real-world robot equipped with a dexterous
hand. More details and video results could be found at
https://sequential-dexterity.github.io