ChatPaper.aiChatPaper

Opschalen en Destilleren: Taalgestuurde Vaardigheidsverwerving voor Robots

Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition

July 26, 2023
Auteurs: Huy Ha, Pete Florence, Shuran Song
cs.AI

Samenvatting

We presenteren een raamwerk voor het verwerven van robotvaardigheden, dat 1) efficiënt de datageneratie van taal-gelabelde robotdata opschaalt en 2) deze data effectief destilleert tot een robuust multi-task, taal-geconditioneerd visuo-motorisch beleid. Voor (1) gebruiken we een groot taalmodel (LLM) om hoogwaardige planning te begeleiden, en op steekproeven gebaseerde robotplanners (bijv. beweging- of grijpsteekproeven) om diverse en rijke manipulatietrajecten te genereren. Om dit dataverzamelingsproces te robuust maken, leidt het LLM ook een codefragment af voor de succescriteria van elke taak, waardoor het dataverzamelingsproces zowel falen kan detecteren en opnieuw kan proberen als automatisch trajecten kan labelen met succes/falen. Voor (2) breiden we de diffusiebeleidsbenadering voor enkelvoudige taken uit naar multi-task omgevingen met taalconditionering. Tot stellen we een nieuwe multi-task benchmark voor met 18 taken over vijf domeinen om langetermijngedrag, gezond verstand, gereedschapsgebruik en intuïtieve fysica te testen. We constateren dat ons gedestilleerde beleid het robuuste herhaalgedrag uit het dataverzamelingsbeleid succesvol heeft geleerd, terwijl de absolute slagingspercentages gemiddeld met 34,8% zijn verbeterd over vijf domeinen. De benchmark, code en kwalitatieve resultaten zijn beschikbaar op onze website https://www.cs.columbia.edu/~huy/scalingup/.
English
We present a framework for robot skill acquisition, which 1) efficiently scale up data generation of language-labelled robot data and 2) effectively distills this data down into a robust multi-task language-conditioned visuo-motor policy. For (1), we use a large language model (LLM) to guide high-level planning, and sampling-based robot planners (e.g. motion or grasp samplers) for generating diverse and rich manipulation trajectories. To robustify this data-collection process, the LLM also infers a code-snippet for the success condition of each task, simultaneously enabling the data-collection process to detect failure and retry as well as the automatic labeling of trajectories with success/failure. For (2), we extend the diffusion policy single-task behavior-cloning approach to multi-task settings with language conditioning. Finally, we propose a new multi-task benchmark with 18 tasks across five domains to test long-horizon behavior, common-sense reasoning, tool-use, and intuitive physics. We find that our distilled policy successfully learned the robust retrying behavior in its data collection policy, while improving absolute success rates by 34.8% on average across five domains. The benchmark, code, and qualitative results are on our website https://www.cs.columbia.edu/~huy/scalingup/
PDF140February 8, 2026