Mise à l'échelle et distillation : Acquisition de compétences robotiques guidée par le langage
Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition
July 26, 2023
Auteurs: Huy Ha, Pete Florence, Shuran Song
cs.AI
Résumé
Nous présentons un cadre pour l'acquisition de compétences robotiques, qui 1) permet de générer efficacement des données étiquetées par le langage à grande échelle et 2) distille efficacement ces données en une politique visuo-motrice robuste et conditionnée par le langage pour des tâches multiples. Pour (1), nous utilisons un modèle de langage de grande taille (LLM) pour guider la planification de haut niveau, ainsi que des planificateurs robotiques basés sur l'échantillonnage (par exemple, des échantillonneurs de mouvement ou de préhension) pour générer des trajectoires de manipulation diverses et riches. Pour renforcer ce processus de collecte de données, le LLM infère également un extrait de code pour la condition de réussite de chaque tâche, permettant ainsi de détecter les échecs, de réessayer et d'étiqueter automatiquement les trajectoires avec succès/échec. Pour (2), nous étendons l'approche de clonage comportemental mono-tâche basée sur la politique de diffusion à des contextes multi-tâches avec conditionnement par le langage. Enfin, nous proposons un nouveau benchmark multi-tâches comprenant 18 tâches réparties dans cinq domaines pour tester les comportements à long terme, le raisonnement de bon sens, l'utilisation d'outils et la physique intuitive. Nous constatons que notre politique distillée a appris avec succès le comportement robuste de réessai de sa politique de collecte de données, tout en améliorant les taux de réussite absolus de 34,8 % en moyenne sur les cinq domaines. Le benchmark, le code et les résultats qualitatifs sont disponibles sur notre site web : https://www.cs.columbia.edu/~huy/scalingup/
English
We present a framework for robot skill acquisition, which 1) efficiently
scale up data generation of language-labelled robot data and 2) effectively
distills this data down into a robust multi-task language-conditioned
visuo-motor policy. For (1), we use a large language model (LLM) to guide
high-level planning, and sampling-based robot planners (e.g. motion or grasp
samplers) for generating diverse and rich manipulation trajectories. To
robustify this data-collection process, the LLM also infers a code-snippet for
the success condition of each task, simultaneously enabling the data-collection
process to detect failure and retry as well as the automatic labeling of
trajectories with success/failure. For (2), we extend the diffusion policy
single-task behavior-cloning approach to multi-task settings with language
conditioning. Finally, we propose a new multi-task benchmark with 18 tasks
across five domains to test long-horizon behavior, common-sense reasoning,
tool-use, and intuitive physics. We find that our distilled policy successfully
learned the robust retrying behavior in its data collection policy, while
improving absolute success rates by 34.8% on average across five domains. The
benchmark, code, and qualitative results are on our website
https://www.cs.columbia.edu/~huy/scalingup/