Apprendre à apprendre plus rapidement à partir des retours humains grâce au contrôle prédictif par modèle de langage
Learning to Learn Faster from Human Feedback with Language Model Predictive Control
February 18, 2024
papers.authors: Jacky Liang, Fei Xia, Wenhao Yu, Andy Zeng, Montserrat Gonzalez Arenas, Maria Attarian, Maria Bauza, Matthew Bennice, Alex Bewley, Adil Dostmohamed, Chuyuan Kelly Fu, Nimrod Gileadi, Marissa Giustina, Keerthana Gopalakrishnan, Leonard Hasenclever, Jan Humplik, Jasmine Hsu, Nikhil Joshi, Ben Jyenis, Chase Kew, Sean Kirmani, Tsang-Wei Edward Lee, Kuang-Huei Lee, Assaf Hurwitz Michaely, Joss Moore, Ken Oslund, Dushyant Rao, Allen Ren, Baruch Tabanpour, Quan Vuong, Ayzaan Wahid, Ted Xiao, Ying Xu, Vincent Zhuang, Peng Xu, Erik Frey, Ken Caluwaerts, Tingnan Zhang, Brian Ichter, Jonathan Tompson, Leila Takayama, Vincent Vanhoucke, Izhak Shafran, Maja Mataric, Dorsa Sadigh, Nicolas Heess, Kanishka Rao, Nik Stewart, Jie Tan, Carolina Parada
cs.AI
papers.abstract
Les grands modèles de langage (LLM) ont démontré un large éventail de capacités, telles que la génération de code robotique à partir de commandes en langage naturel -- permettant à des non-experts de diriger les comportements des robots, de les modifier en fonction de retours d'expérience, ou de les composer pour exécuter de nouvelles tâches. Cependant, ces capacités (propulsées par l'apprentissage en contexte) se limitent à des interactions à court terme, où les retours des utilisateurs restent pertinents uniquement tant qu'ils s'inscrivent dans la taille de contexte du LLM, et peuvent être oubliés lors d'interactions plus longues. Dans ce travail, nous étudions le fine-tuning des LLM générant du code robotique, afin qu'ils mémorisent leurs interactions en contexte et améliorent leur "enseignabilité", c'est-à-dire leur efficacité à s'adapter aux entrées humaines (mesurée par le nombre moyen de corrections avant que l'utilisateur considère la tâche réussie). Notre observation clé est que lorsque les interactions homme-robot sont formulées comme un processus de décision markovien partiellement observable (où les entrées en langage naturel sont des observations, et les sorties de code robotique sont des actions), alors l'entraînement d'un LLM à compléter des interactions précédentes peut être vu comme l'entraînement d'un modèle de dynamique de transition -- qui peut être combiné avec des techniques classiques de robotique telles que le contrôle prédictif par modèle (MPC) pour découvrir des chemins plus courts vers la réussite. Cela donne naissance au Contrôle Prédictif par Modèle de Langage (LMPC), un cadre qui applique le fine-tuning de PaLM 2 pour améliorer son enseignabilité sur 78 tâches réparties sur 5 incarnations de robots -- augmentant les taux de réussite d'enseignement par des non-experts sur des tâches inédites de 26,9% tout en réduisant le nombre moyen de corrections humaines de 2,4 à 1,9. Les expériences montrent que LMPC produit également des méta-apprenants performants, améliorant le taux de réussite de l'apprentissage en contexte pour de nouvelles tâches sur des incarnations de robots et des API inédites de 31,5%. Voir les vidéos, le code et les démos sur : https://robot-teaching.github.io/.
English
Large language models (LLMs) have been shown to exhibit a wide range of
capabilities, such as writing robot code from language commands -- enabling
non-experts to direct robot behaviors, modify them based on feedback, or
compose them to perform new tasks. However, these capabilities (driven by
in-context learning) are limited to short-term interactions, where users'
feedback remains relevant for only as long as it fits within the context size
of the LLM, and can be forgotten over longer interactions. In this work, we
investigate fine-tuning the robot code-writing LLMs, to remember their
in-context interactions and improve their teachability i.e., how efficiently
they adapt to human inputs (measured by average number of corrections before
the user considers the task successful). Our key observation is that when
human-robot interactions are formulated as a partially observable Markov
decision process (in which human language inputs are observations, and robot
code outputs are actions), then training an LLM to complete previous
interactions can be viewed as training a transition dynamics model -- that can
be combined with classic robotics techniques such as model predictive control
(MPC) to discover shorter paths to success. This gives rise to Language Model
Predictive Control (LMPC), a framework that fine-tunes PaLM 2 to improve its
teachability on 78 tasks across 5 robot embodiments -- improving non-expert
teaching success rates of unseen tasks by 26.9% while reducing the average
number of human corrections from 2.4 to 1.9. Experiments show that LMPC also
produces strong meta-learners, improving the success rate of in-context
learning new tasks on unseen robot embodiments and APIs by 31.5%. See videos,
code, and demos at: https://robot-teaching.github.io/.