Scalabilità e Distillazione: Acquisizione di Competenze Robotiche Guidata dal Linguaggio
Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition
July 26, 2023
Autori: Huy Ha, Pete Florence, Shuran Song
cs.AI
Abstract
Presentiamo un framework per l'acquisizione di competenze robotiche, che 1) scala in modo efficiente la generazione di dati etichettati linguisticamente per i robot e 2) distilla efficacemente questi dati in una politica visuo-motoria condizionata al linguaggio e robusta per compiti multipli. Per (1), utilizziamo un modello linguistico di grandi dimensioni (LLM) per guidare la pianificazione di alto livello e pianificatori robotici basati su campionamento (ad esempio, campionatori di movimento o presa) per generare traiettorie di manipolazione diverse e ricche. Per rendere robusto questo processo di raccolta dati, l'LLM inferisce anche un frammento di codice per la condizione di successo di ciascun compito, consentendo contemporaneamente al processo di raccolta dati di rilevare gli errori e riprovare, nonché l'etichettatura automatica delle traiettorie con successo/fallimento. Per (2), estendiamo l'approccio di clonazione del comportamento a singolo compito della politica di diffusione a contesti multi-compito con condizionamento linguistico. Infine, proponiamo un nuovo benchmark multi-compito con 18 compiti in cinque domini per testare comportamenti a lungo termine, ragionamento di senso comune, uso di strumenti e fisica intuitiva. Rileviamo che la nostra politica distillata ha appreso con successo il comportamento robusto di riprova presente nella politica di raccolta dati, migliorando i tassi di successo assoluti in media del 34,8% su cinque domini. Il benchmark, il codice e i risultati qualitativi sono disponibili sul nostro sito web https://www.cs.columbia.edu/~huy/scalingup/.
English
We present a framework for robot skill acquisition, which 1) efficiently
scale up data generation of language-labelled robot data and 2) effectively
distills this data down into a robust multi-task language-conditioned
visuo-motor policy. For (1), we use a large language model (LLM) to guide
high-level planning, and sampling-based robot planners (e.g. motion or grasp
samplers) for generating diverse and rich manipulation trajectories. To
robustify this data-collection process, the LLM also infers a code-snippet for
the success condition of each task, simultaneously enabling the data-collection
process to detect failure and retry as well as the automatic labeling of
trajectories with success/failure. For (2), we extend the diffusion policy
single-task behavior-cloning approach to multi-task settings with language
conditioning. Finally, we propose a new multi-task benchmark with 18 tasks
across five domains to test long-horizon behavior, common-sense reasoning,
tool-use, and intuitive physics. We find that our distilled policy successfully
learned the robust retrying behavior in its data collection policy, while
improving absolute success rates by 34.8% on average across five domains. The
benchmark, code, and qualitative results are on our website
https://www.cs.columbia.edu/~huy/scalingup/