Leren om sneller te leren van menselijke feedback met voorspellende controle van taalmodel

Samenvatting

Grote taalmodellen (LLM's) hebben aangetoond een breed scala aan mogelijkheden te bezitten, zoals het schrijven van robotcode op basis van taalcommando's – waardoor niet-experts robotgedrag kunnen aansturen, aanpassen op basis van feedback, of combineren om nieuwe taken uit te voeren. Deze mogelijkheden (aangedreven door in-context leren) zijn echter beperkt tot kortetermijninteracties, waarbij de feedback van gebruikers alleen relevant blijft zolang deze binnen de contextgrootte van het LLM past, en kan worden vergeten bij langere interacties. In dit werk onderzoeken we het fine-tunen van LLM's die robotcode schrijven, zodat ze hun in-context interacties onthouden en hun leerbaarheid verbeteren, d.w.z. hoe efficiënt ze zich aanpassen aan menselijke input (gemeten aan het gemiddeld aantal correcties voordat de gebruiker de taak als geslaagd beschouwt). Onze belangrijkste observatie is dat wanneer mens-robotinteracties worden geformuleerd als een gedeeltelijk waarneembaar Markov-beslissingsproces (waarbij menselijke taalinputs observaties zijn, en robotcode-outputs acties), het trainen van een LLM om eerdere interacties af te ronden kan worden gezien als het trainen van een transitiedynamisch model – dat kan worden gecombineerd met klassieke roboticatechnieken zoals model predictive control (MPC) om kortere wegen naar succes te ontdekken. Dit leidt tot Language Model Predictive Control (LMPC), een framework dat PaLM 2 fine-tunt om de leerbaarheid te verbeteren op 78 taken over 5 robotconfiguraties – waarbij het succespercentage van niet-experts bij het aanleren van onbekende taken met 26,9% wordt verbeterd, terwijl het gemiddeld aantal menselijke correcties wordt teruggebracht van 2,4 naar 1,9. Experimenten tonen aan dat LMPC ook sterke meta-leerders produceert, die het succespercentage van in-context leren van nieuwe taken op onbekende robotconfiguraties en API's met 31,5% verbeteren. Zie video's, code en demo's op: https://robot-teaching.github.io/.

English

Large language models (LLMs) have been shown to exhibit a wide range of capabilities, such as writing robot code from language commands -- enabling non-experts to direct robot behaviors, modify them based on feedback, or compose them to perform new tasks. However, these capabilities (driven by in-context learning) are limited to short-term interactions, where users' feedback remains relevant for only as long as it fits within the context size of the LLM, and can be forgotten over longer interactions. In this work, we investigate fine-tuning the robot code-writing LLMs, to remember their in-context interactions and improve their teachability i.e., how efficiently they adapt to human inputs (measured by average number of corrections before the user considers the task successful). Our key observation is that when human-robot interactions are formulated as a partially observable Markov decision process (in which human language inputs are observations, and robot code outputs are actions), then training an LLM to complete previous interactions can be viewed as training a transition dynamics model -- that can be combined with classic robotics techniques such as model predictive control (MPC) to discover shorter paths to success. This gives rise to Language Model Predictive Control (LMPC), a framework that fine-tunes PaLM 2 to improve its teachability on 78 tasks across 5 robot embodiments -- improving non-expert teaching success rates of unseen tasks by 26.9% while reducing the average number of human corrections from 2.4 to 1.9. Experiments show that LMPC also produces strong meta-learners, improving the success rate of in-context learning new tasks on unseen robot embodiments and APIs by 31.5%. See videos, code, and demos at: https://robot-teaching.github.io/.

Leren om sneller te leren van menselijke feedback met voorspellende controle van taalmodel

Learning to Learn Faster from Human Feedback with Language Model Predictive Control

Samenvatting

Support