Skalierung und Destillation: Sprachgesteuerte Erwerb von Roboterfähigkeiten
Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition
July 26, 2023
Autoren: Huy Ha, Pete Florence, Shuran Song
cs.AI
Zusammenfassung
Wir stellen ein Framework für den Erwerb von Robotikfähigkeiten vor, das 1) die Datengenerierung von sprachbeschrifteten Roboterdaten effizient skaliert und 2) diese Daten effektiv in eine robuste, sprachgesteuerte visuomotorische Multi-Task-Policy destilliert. Für (1) verwenden wir ein großes Sprachmodell (LLM), um die hochrangige Planung zu steuern, und sampling-basierte Roboterplaner (z. B. Bewegungs- oder Greifsampler), um vielfältige und umfangreiche Manipulationstrajektorien zu generieren. Um diesen Datenerfassungsprozess zu robustifizieren, leitet das LLM auch ein Code-Snippet für die Erfolgsbedingung jeder Aufgabe ab, wodurch der Datenerfassungsprozess in der Lage ist, Fehler zu erkennen und erneut zu versuchen, sowie die automatische Beschriftung der Trajektorien mit Erfolg/Misserfolg ermöglicht wird. Für (2) erweitern wir den Diffusion-Policy-Ansatz des Einzelaufgaben-Verhaltensklonens auf Multi-Task-Szenarien mit Sprachsteuerung. Schließlich schlagen wir einen neuen Multi-Task-Benchmark mit 18 Aufgaben über fünf Domänen vor, um langfristiges Verhalten, gesunden Menschenverstand, Werkzeuggebrauch und intuitive Physik zu testen. Wir stellen fest, dass unsere destillierte Policy das robuste Wiederholungsverhalten ihrer Datenerfassungs-Policy erfolgreich erlernt hat, während die absoluten Erfolgsraten im Durchschnitt über fünf Domänen um 34,8 % gesteigert wurden. Der Benchmark, der Code und qualitative Ergebnisse sind auf unserer Website verfügbar: https://www.cs.columbia.edu/~huy/scalingup/
English
We present a framework for robot skill acquisition, which 1) efficiently
scale up data generation of language-labelled robot data and 2) effectively
distills this data down into a robust multi-task language-conditioned
visuo-motor policy. For (1), we use a large language model (LLM) to guide
high-level planning, and sampling-based robot planners (e.g. motion or grasp
samplers) for generating diverse and rich manipulation trajectories. To
robustify this data-collection process, the LLM also infers a code-snippet for
the success condition of each task, simultaneously enabling the data-collection
process to detect failure and retry as well as the automatic labeling of
trajectories with success/failure. For (2), we extend the diffusion policy
single-task behavior-cloning approach to multi-task settings with language
conditioning. Finally, we propose a new multi-task benchmark with 18 tasks
across five domains to test long-horizon behavior, common-sense reasoning,
tool-use, and intuitive physics. We find that our distilled policy successfully
learned the robust retrying behavior in its data collection policy, while
improving absolute success rates by 34.8% on average across five domains. The
benchmark, code, and qualitative results are on our website
https://www.cs.columbia.edu/~huy/scalingup/