ChatPaper.aiChatPaper

Skalierung und Destillation: Sprachgesteuerte Erwerb von Roboterfähigkeiten

Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition

July 26, 2023
Autoren: Huy Ha, Pete Florence, Shuran Song
cs.AI

Zusammenfassung

Wir stellen ein Framework für den Erwerb von Robotikfähigkeiten vor, das 1) die Datengenerierung von sprachbeschrifteten Roboterdaten effizient skaliert und 2) diese Daten effektiv in eine robuste, sprachgesteuerte visuomotorische Multi-Task-Policy destilliert. Für (1) verwenden wir ein großes Sprachmodell (LLM), um die hochrangige Planung zu steuern, und sampling-basierte Roboterplaner (z. B. Bewegungs- oder Greifsampler), um vielfältige und umfangreiche Manipulationstrajektorien zu generieren. Um diesen Datenerfassungsprozess zu robustifizieren, leitet das LLM auch ein Code-Snippet für die Erfolgsbedingung jeder Aufgabe ab, wodurch der Datenerfassungsprozess in der Lage ist, Fehler zu erkennen und erneut zu versuchen, sowie die automatische Beschriftung der Trajektorien mit Erfolg/Misserfolg ermöglicht wird. Für (2) erweitern wir den Diffusion-Policy-Ansatz des Einzelaufgaben-Verhaltensklonens auf Multi-Task-Szenarien mit Sprachsteuerung. Schließlich schlagen wir einen neuen Multi-Task-Benchmark mit 18 Aufgaben über fünf Domänen vor, um langfristiges Verhalten, gesunden Menschenverstand, Werkzeuggebrauch und intuitive Physik zu testen. Wir stellen fest, dass unsere destillierte Policy das robuste Wiederholungsverhalten ihrer Datenerfassungs-Policy erfolgreich erlernt hat, während die absoluten Erfolgsraten im Durchschnitt über fünf Domänen um 34,8 % gesteigert wurden. Der Benchmark, der Code und qualitative Ergebnisse sind auf unserer Website verfügbar: https://www.cs.columbia.edu/~huy/scalingup/
English
We present a framework for robot skill acquisition, which 1) efficiently scale up data generation of language-labelled robot data and 2) effectively distills this data down into a robust multi-task language-conditioned visuo-motor policy. For (1), we use a large language model (LLM) to guide high-level planning, and sampling-based robot planners (e.g. motion or grasp samplers) for generating diverse and rich manipulation trajectories. To robustify this data-collection process, the LLM also infers a code-snippet for the success condition of each task, simultaneously enabling the data-collection process to detect failure and retry as well as the automatic labeling of trajectories with success/failure. For (2), we extend the diffusion policy single-task behavior-cloning approach to multi-task settings with language conditioning. Finally, we propose a new multi-task benchmark with 18 tasks across five domains to test long-horizon behavior, common-sense reasoning, tool-use, and intuitive physics. We find that our distilled policy successfully learned the robust retrying behavior in its data collection policy, while improving absolute success rates by 34.8% on average across five domains. The benchmark, code, and qualitative results are on our website https://www.cs.columbia.edu/~huy/scalingup/
PDF140December 15, 2024