ChatPaper.aiChatPaper

Масштабирование и дистилляция: Приобретение навыков робота с использованием языкового руководства

Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition

July 26, 2023
Авторы: Huy Ha, Pete Florence, Shuran Song
cs.AI

Аннотация

Мы представляем фреймворк для приобретения навыков роботами, который 1) эффективно масштабирует генерацию данных, помеченных языковыми метками, и 2) эффективно конденсирует эти данные в устойчивую многозадачную визуомоторную политику, обусловленную языком. Для (1) мы используем крупную языковую модель (LLM) для управления высокоуровневым планированием и планировщики на основе выборки (например, для движения или захвата) для генерации разнообразных и насыщенных траекторий манипуляций. Чтобы сделать процесс сбора данных более устойчивым, LLM также выводит фрагмент кода для условия успеха каждой задачи, что одновременно позволяет процессу сбора данных обнаруживать сбои и повторять попытки, а также автоматически маркировать траектории как успешные или неудачные. Для (2) мы расширяем подход к клонированию поведения на основе диффузионной политики для однозадачных сценариев до многозадачных с условием языка. Наконец, мы предлагаем новый многозадачный бенчмарк с 18 задачами в пяти областях для тестирования долгосрочного поведения, здравого смысла, использования инструментов и интуитивной физики. Мы обнаружили, что наша конденсированная политика успешно переняла устойчивое поведение повторных попыток из политики сбора данных, при этом улучшив абсолютные показатели успеха в среднем на 34,8% в пяти областях. Бенчмарк, код и качественные результаты доступны на нашем сайте https://www.cs.columbia.edu/~huy/scalingup/
English
We present a framework for robot skill acquisition, which 1) efficiently scale up data generation of language-labelled robot data and 2) effectively distills this data down into a robust multi-task language-conditioned visuo-motor policy. For (1), we use a large language model (LLM) to guide high-level planning, and sampling-based robot planners (e.g. motion or grasp samplers) for generating diverse and rich manipulation trajectories. To robustify this data-collection process, the LLM also infers a code-snippet for the success condition of each task, simultaneously enabling the data-collection process to detect failure and retry as well as the automatic labeling of trajectories with success/failure. For (2), we extend the diffusion policy single-task behavior-cloning approach to multi-task settings with language conditioning. Finally, we propose a new multi-task benchmark with 18 tasks across five domains to test long-horizon behavior, common-sense reasoning, tool-use, and intuitive physics. We find that our distilled policy successfully learned the robust retrying behavior in its data collection policy, while improving absolute success rates by 34.8% on average across five domains. The benchmark, code, and qualitative results are on our website https://www.cs.columbia.edu/~huy/scalingup/
PDF140December 15, 2024