Schnelleres Lernen durch menschliches Feedback mit prädiktiver Steuerung von Sprachmodellen

papers.abstract

Große Sprachmodelle (LLMs) haben gezeigt, dass sie eine breite Palette von Fähigkeiten besitzen, wie beispielsweise das Schreiben von Roboter-Code aus Sprachbefehlen – was es Nicht-Experten ermöglicht, Roboterverhalten zu steuern, es basierend auf Feedback zu modifizieren oder es zu kombinieren, um neue Aufgaben auszuführen. Diese Fähigkeiten (angetrieben durch In-Context-Lernen) sind jedoch auf kurzfristige Interaktionen beschränkt, bei denen das Feedback der Nutzer nur so lange relevant bleibt, wie es in den Kontextumfang des LLMs passt, und können über längere Interaktionen hinweg vergessen werden. In dieser Arbeit untersuchen wir das Feinabstimmen von LLMs, die Roboter-Code schreiben, um ihre In-Context-Interaktionen zu behalten und ihre Lehrbarkeit zu verbessern, d.h. wie effizient sie sich an menschliche Eingaben anpassen (gemessen an der durchschnittlichen Anzahl von Korrekturen, bevor der Nutzer die Aufgabe als erfolgreich betrachtet). Unsere zentrale Beobachtung ist, dass wenn Mensch-Roboter-Interaktionen als ein teilweise beobachtbarer Markov-Entscheidungsprozess formuliert werden (bei dem menschliche Spracheingaben Beobachtungen und Roboter-Code-Ausgaben Aktionen sind), dann kann das Trainieren eines LLMs, um frühere Interaktionen zu vervollständigen, als das Trainieren eines Übergangsdynamikmodells betrachtet werden – das mit klassischen Robotik-Techniken wie Modellprädiktiver Regelung (MPC) kombiniert werden kann, um kürzere Wege zum Erfolg zu finden. Dies führt zu Language Model Predictive Control (LMPC), einem Framework, das PaLM 2 feinabstimmt, um seine Lehrbarkeit bei 78 Aufgaben über 5 Roboter-Implementierungen hinweg zu verbessern – die Erfolgsquote von Nicht-Experten bei der Vermittlung unbekannter Aufgaben um 26,9 % steigert und die durchschnittliche Anzahl menschlicher Korrekturen von 2,4 auf 1,9 reduziert. Experimente zeigen, dass LMPC auch starke Meta-Lerner hervorbringt, die die Erfolgsquote von In-Context-Lernen neuer Aufgaben bei unbekannten Roboter-Implementierungen und APIs um 31,5 % verbessern. Videos, Code und Demos finden Sie unter: https://robot-teaching.github.io/.

English

Large language models (LLMs) have been shown to exhibit a wide range of capabilities, such as writing robot code from language commands -- enabling non-experts to direct robot behaviors, modify them based on feedback, or compose them to perform new tasks. However, these capabilities (driven by in-context learning) are limited to short-term interactions, where users' feedback remains relevant for only as long as it fits within the context size of the LLM, and can be forgotten over longer interactions. In this work, we investigate fine-tuning the robot code-writing LLMs, to remember their in-context interactions and improve their teachability i.e., how efficiently they adapt to human inputs (measured by average number of corrections before the user considers the task successful). Our key observation is that when human-robot interactions are formulated as a partially observable Markov decision process (in which human language inputs are observations, and robot code outputs are actions), then training an LLM to complete previous interactions can be viewed as training a transition dynamics model -- that can be combined with classic robotics techniques such as model predictive control (MPC) to discover shorter paths to success. This gives rise to Language Model Predictive Control (LMPC), a framework that fine-tunes PaLM 2 to improve its teachability on 78 tasks across 5 robot embodiments -- improving non-expert teaching success rates of unseen tasks by 26.9% while reducing the average number of human corrections from 2.4 to 1.9. Experiments show that LMPC also produces strong meta-learners, improving the success rate of in-context learning new tasks on unseen robot embodiments and APIs by 31.5%. See videos, code, and demos at: https://robot-teaching.github.io/.

Schnelleres Lernen durch menschliches Feedback mit prädiktiver Steuerung von Sprachmodellen

Learning to Learn Faster from Human Feedback with Language Model Predictive Control

papers.abstract

Support