Escalando e Destilando: Aquisição de Habilidades Robóticas Orientada por Linguagem

Resumo

Apresentamos um framework para aquisição de habilidades robóticas, que 1) escala eficientemente a geração de dados rotulados por linguagem para robôs e 2) destila efetivamente esses dados em uma política visuo-motora robusta e condicionada por linguagem para múltiplas tarefas. Para (1), utilizamos um modelo de linguagem de grande escala (LLM) para guiar o planejamento de alto nível, e planejadores robóticos baseados em amostragem (por exemplo, amostradores de movimento ou de preensão) para gerar trajetórias de manipulação diversas e ricas. Para robustecer esse processo de coleta de dados, o LLM também infere um trecho de código para a condição de sucesso de cada tarefa, permitindo simultaneamente que o processo de coleta de dados detecte falhas e tente novamente, além de rotular automaticamente as trajetórias com sucesso/fracasso. Para (2), estendemos a abordagem de clonagem comportamental de tarefa única da política de difusão para configurações de múltiplas tarefas com condicionamento por linguagem. Por fim, propomos um novo benchmark de múltiplas tarefas com 18 tarefas em cinco domínios para testar comportamentos de longo horizonte, raciocínio de senso comum, uso de ferramentas e física intuitiva. Descobrimos que nossa política destilada aprendeu com sucesso o comportamento robusto de tentativa repetida de sua política de coleta de dados, enquanto melhorou as taxas de sucesso absoluto em 34,8% em média nos cinco domínios. O benchmark, o código e os resultados qualitativos estão disponíveis em nosso site: https://www.cs.columbia.edu/~huy/scalingup/

English

We present a framework for robot skill acquisition, which 1) efficiently scale up data generation of language-labelled robot data and 2) effectively distills this data down into a robust multi-task language-conditioned visuo-motor policy. For (1), we use a large language model (LLM) to guide high-level planning, and sampling-based robot planners (e.g. motion or grasp samplers) for generating diverse and rich manipulation trajectories. To robustify this data-collection process, the LLM also infers a code-snippet for the success condition of each task, simultaneously enabling the data-collection process to detect failure and retry as well as the automatic labeling of trajectories with success/failure. For (2), we extend the diffusion policy single-task behavior-cloning approach to multi-task settings with language conditioning. Finally, we propose a new multi-task benchmark with 18 tasks across five domains to test long-horizon behavior, common-sense reasoning, tool-use, and intuitive physics. We find that our distilled policy successfully learned the robust retrying behavior in its data collection policy, while improving absolute success rates by 34.8% on average across five domains. The benchmark, code, and qualitative results are on our website https://www.cs.columbia.edu/~huy/scalingup/

Escalando e Destilando: Aquisição de Habilidades Robóticas Orientada por Linguagem

Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition

Resumo

Support