Масштабирование и дистилляция: Приобретение навыков робота с использованием языкового руководства
Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition
July 26, 2023
Авторы: Huy Ha, Pete Florence, Shuran Song
cs.AI
Аннотация
Мы представляем фреймворк для приобретения навыков роботами, который 1) эффективно масштабирует генерацию данных, помеченных языковыми метками, и 2) эффективно конденсирует эти данные в устойчивую многозадачную визуомоторную политику, обусловленную языком. Для (1) мы используем крупную языковую модель (LLM) для управления высокоуровневым планированием и планировщики на основе выборки (например, для движения или захвата) для генерации разнообразных и насыщенных траекторий манипуляций. Чтобы сделать процесс сбора данных более устойчивым, LLM также выводит фрагмент кода для условия успеха каждой задачи, что одновременно позволяет процессу сбора данных обнаруживать сбои и повторять попытки, а также автоматически маркировать траектории как успешные или неудачные. Для (2) мы расширяем подход к клонированию поведения на основе диффузионной политики для однозадачных сценариев до многозадачных с условием языка. Наконец, мы предлагаем новый многозадачный бенчмарк с 18 задачами в пяти областях для тестирования долгосрочного поведения, здравого смысла, использования инструментов и интуитивной физики. Мы обнаружили, что наша конденсированная политика успешно переняла устойчивое поведение повторных попыток из политики сбора данных, при этом улучшив абсолютные показатели успеха в среднем на 34,8% в пяти областях. Бенчмарк, код и качественные результаты доступны на нашем сайте https://www.cs.columbia.edu/~huy/scalingup/
English
We present a framework for robot skill acquisition, which 1) efficiently
scale up data generation of language-labelled robot data and 2) effectively
distills this data down into a robust multi-task language-conditioned
visuo-motor policy. For (1), we use a large language model (LLM) to guide
high-level planning, and sampling-based robot planners (e.g. motion or grasp
samplers) for generating diverse and rich manipulation trajectories. To
robustify this data-collection process, the LLM also infers a code-snippet for
the success condition of each task, simultaneously enabling the data-collection
process to detect failure and retry as well as the automatic labeling of
trajectories with success/failure. For (2), we extend the diffusion policy
single-task behavior-cloning approach to multi-task settings with language
conditioning. Finally, we propose a new multi-task benchmark with 18 tasks
across five domains to test long-horizon behavior, common-sense reasoning,
tool-use, and intuitive physics. We find that our distilled policy successfully
learned the robust retrying behavior in its data collection policy, while
improving absolute success rates by 34.8% on average across five domains. The
benchmark, code, and qualitative results are on our website
https://www.cs.columbia.edu/~huy/scalingup/