Escalando e Destilando: Aquisição de Habilidades Robóticas Orientada por Linguagem
Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition
July 26, 2023
Autores: Huy Ha, Pete Florence, Shuran Song
cs.AI
Resumo
Apresentamos um framework para aquisição de habilidades robóticas, que 1) escala eficientemente a geração de dados rotulados por linguagem para robôs e 2) destila efetivamente esses dados em uma política visuo-motora robusta e condicionada por linguagem para múltiplas tarefas. Para (1), utilizamos um modelo de linguagem de grande escala (LLM) para guiar o planejamento de alto nível, e planejadores robóticos baseados em amostragem (por exemplo, amostradores de movimento ou de preensão) para gerar trajetórias de manipulação diversas e ricas. Para robustecer esse processo de coleta de dados, o LLM também infere um trecho de código para a condição de sucesso de cada tarefa, permitindo simultaneamente que o processo de coleta de dados detecte falhas e tente novamente, além de rotular automaticamente as trajetórias com sucesso/fracasso. Para (2), estendemos a abordagem de clonagem comportamental de tarefa única da política de difusão para configurações de múltiplas tarefas com condicionamento por linguagem. Por fim, propomos um novo benchmark de múltiplas tarefas com 18 tarefas em cinco domínios para testar comportamentos de longo horizonte, raciocínio de senso comum, uso de ferramentas e física intuitiva. Descobrimos que nossa política destilada aprendeu com sucesso o comportamento robusto de tentativa repetida de sua política de coleta de dados, enquanto melhorou as taxas de sucesso absoluto em 34,8% em média nos cinco domínios. O benchmark, o código e os resultados qualitativos estão disponíveis em nosso site: https://www.cs.columbia.edu/~huy/scalingup/
English
We present a framework for robot skill acquisition, which 1) efficiently
scale up data generation of language-labelled robot data and 2) effectively
distills this data down into a robust multi-task language-conditioned
visuo-motor policy. For (1), we use a large language model (LLM) to guide
high-level planning, and sampling-based robot planners (e.g. motion or grasp
samplers) for generating diverse and rich manipulation trajectories. To
robustify this data-collection process, the LLM also infers a code-snippet for
the success condition of each task, simultaneously enabling the data-collection
process to detect failure and retry as well as the automatic labeling of
trajectories with success/failure. For (2), we extend the diffusion policy
single-task behavior-cloning approach to multi-task settings with language
conditioning. Finally, we propose a new multi-task benchmark with 18 tasks
across five domains to test long-horizon behavior, common-sense reasoning,
tool-use, and intuitive physics. We find that our distilled policy successfully
learned the robust retrying behavior in its data collection policy, while
improving absolute success rates by 34.8% on average across five domains. The
benchmark, code, and qualitative results are on our website
https://www.cs.columbia.edu/~huy/scalingup/