Scalabilità e Distillazione: Acquisizione di Competenze Robotiche Guidata dal Linguaggio

Abstract

Presentiamo un framework per l'acquisizione di competenze robotiche, che 1) scala in modo efficiente la generazione di dati etichettati linguisticamente per i robot e 2) distilla efficacemente questi dati in una politica visuo-motoria condizionata al linguaggio e robusta per compiti multipli. Per (1), utilizziamo un modello linguistico di grandi dimensioni (LLM) per guidare la pianificazione di alto livello e pianificatori robotici basati su campionamento (ad esempio, campionatori di movimento o presa) per generare traiettorie di manipolazione diverse e ricche. Per rendere robusto questo processo di raccolta dati, l'LLM inferisce anche un frammento di codice per la condizione di successo di ciascun compito, consentendo contemporaneamente al processo di raccolta dati di rilevare gli errori e riprovare, nonché l'etichettatura automatica delle traiettorie con successo/fallimento. Per (2), estendiamo l'approccio di clonazione del comportamento a singolo compito della politica di diffusione a contesti multi-compito con condizionamento linguistico. Infine, proponiamo un nuovo benchmark multi-compito con 18 compiti in cinque domini per testare comportamenti a lungo termine, ragionamento di senso comune, uso di strumenti e fisica intuitiva. Rileviamo che la nostra politica distillata ha appreso con successo il comportamento robusto di riprova presente nella politica di raccolta dati, migliorando i tassi di successo assoluti in media del 34,8% su cinque domini. Il benchmark, il codice e i risultati qualitativi sono disponibili sul nostro sito web https://www.cs.columbia.edu/~huy/scalingup/.

English

We present a framework for robot skill acquisition, which 1) efficiently scale up data generation of language-labelled robot data and 2) effectively distills this data down into a robust multi-task language-conditioned visuo-motor policy. For (1), we use a large language model (LLM) to guide high-level planning, and sampling-based robot planners (e.g. motion or grasp samplers) for generating diverse and rich manipulation trajectories. To robustify this data-collection process, the LLM also infers a code-snippet for the success condition of each task, simultaneously enabling the data-collection process to detect failure and retry as well as the automatic labeling of trajectories with success/failure. For (2), we extend the diffusion policy single-task behavior-cloning approach to multi-task settings with language conditioning. Finally, we propose a new multi-task benchmark with 18 tasks across five domains to test long-horizon behavior, common-sense reasoning, tool-use, and intuitive physics. We find that our distilled policy successfully learned the robust retrying behavior in its data collection policy, while improving absolute success rates by 34.8% on average across five domains. The benchmark, code, and qualitative results are on our website https://www.cs.columbia.edu/~huy/scalingup/

Scalabilità e Distillazione: Acquisizione di Competenze Robotiche Guidata dal Linguaggio

Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition

Abstract

Support