ChatPaper.aiChatPaper

Imparare a Imparare Più Velocemente dal Feedback Umano con il Controllo Predittivo dei Modelli Linguistici

Learning to Learn Faster from Human Feedback with Language Model Predictive Control

February 18, 2024
Autori: Jacky Liang, Fei Xia, Wenhao Yu, Andy Zeng, Montserrat Gonzalez Arenas, Maria Attarian, Maria Bauza, Matthew Bennice, Alex Bewley, Adil Dostmohamed, Chuyuan Kelly Fu, Nimrod Gileadi, Marissa Giustina, Keerthana Gopalakrishnan, Leonard Hasenclever, Jan Humplik, Jasmine Hsu, Nikhil Joshi, Ben Jyenis, Chase Kew, Sean Kirmani, Tsang-Wei Edward Lee, Kuang-Huei Lee, Assaf Hurwitz Michaely, Joss Moore, Ken Oslund, Dushyant Rao, Allen Ren, Baruch Tabanpour, Quan Vuong, Ayzaan Wahid, Ted Xiao, Ying Xu, Vincent Zhuang, Peng Xu, Erik Frey, Ken Caluwaerts, Tingnan Zhang, Brian Ichter, Jonathan Tompson, Leila Takayama, Vincent Vanhoucke, Izhak Shafran, Maja Mataric, Dorsa Sadigh, Nicolas Heess, Kanishka Rao, Nik Stewart, Jie Tan, Carolina Parada
cs.AI

Abstract

I grandi modelli linguistici (LLM) hanno dimostrato di possedere un'ampia gamma di capacità, come la scrittura di codice per robot a partire da comandi linguistici, consentendo a non esperti di dirigere i comportamenti dei robot, modificarli in base ai feedback o combinarli per eseguire nuovi compiti. Tuttavia, queste capacità (guidate dall'apprendimento in contesto) sono limitate a interazioni a breve termine, in cui i feedback degli utenti rimangono rilevanti solo finché rientrano nelle dimensioni del contesto dell'LLM e possono essere dimenticati in interazioni più lunghe. In questo lavoro, indaghiamo il fine-tuning degli LLM che scrivono codice per robot, affinché ricordino le loro interazioni in contesto e migliorino la loro "insegnabilità", ovvero quanto efficientemente si adattano agli input umani (misurato dal numero medio di correzioni prima che l'utente consideri il compito completato con successo). La nostra osservazione chiave è che quando le interazioni uomo-robot sono formulate come un processo decisionale di Markov parzialmente osservabile (in cui gli input linguistici umani sono osservazioni e le uscite di codice del robot sono azioni), allora addestrare un LLM a completare interazioni precedenti può essere visto come l'addestramento di un modello di dinamica delle transizioni, che può essere combinato con tecniche robotiche classiche come il controllo predittivo basato su modello (MPC) per scoprire percorsi più brevi verso il successo. Ciò dà origine al Controllo Predittivo basato su Modelli Linguistici (LMPC), un framework che esegue il fine-tuning di PaLM 2 per migliorare la sua insegnabilità su 78 compiti in 5 configurazioni robotiche, aumentando i tassi di successo nell'insegnamento di compiti non visti da parte di non esperti del 26,9% e riducendo il numero medio di correzioni umane da 2,4 a 1,9. Gli esperimenti mostrano che LMPC produce anche forti meta-apprendenti, migliorando il tasso di successo dell'apprendimento in contesto di nuovi compiti su configurazioni robotiche e API non viste del 31,5%. Guarda video, codice e demo su: https://robot-teaching.github.io/.
English
Large language models (LLMs) have been shown to exhibit a wide range of capabilities, such as writing robot code from language commands -- enabling non-experts to direct robot behaviors, modify them based on feedback, or compose them to perform new tasks. However, these capabilities (driven by in-context learning) are limited to short-term interactions, where users' feedback remains relevant for only as long as it fits within the context size of the LLM, and can be forgotten over longer interactions. In this work, we investigate fine-tuning the robot code-writing LLMs, to remember their in-context interactions and improve their teachability i.e., how efficiently they adapt to human inputs (measured by average number of corrections before the user considers the task successful). Our key observation is that when human-robot interactions are formulated as a partially observable Markov decision process (in which human language inputs are observations, and robot code outputs are actions), then training an LLM to complete previous interactions can be viewed as training a transition dynamics model -- that can be combined with classic robotics techniques such as model predictive control (MPC) to discover shorter paths to success. This gives rise to Language Model Predictive Control (LMPC), a framework that fine-tunes PaLM 2 to improve its teachability on 78 tasks across 5 robot embodiments -- improving non-expert teaching success rates of unseen tasks by 26.9% while reducing the average number of human corrections from 2.4 to 1.9. Experiments show that LMPC also produces strong meta-learners, improving the success rate of in-context learning new tasks on unseen robot embodiments and APIs by 31.5%. See videos, code, and demos at: https://robot-teaching.github.io/.
PDF232March 16, 2026