ChatPaper.aiChatPaper

Aprendendo a Aprender Mais Rápido com Feedback Humano Usando Controle Preditivo com Modelos de Linguagem

Learning to Learn Faster from Human Feedback with Language Model Predictive Control

February 18, 2024
Autores: Jacky Liang, Fei Xia, Wenhao Yu, Andy Zeng, Montserrat Gonzalez Arenas, Maria Attarian, Maria Bauza, Matthew Bennice, Alex Bewley, Adil Dostmohamed, Chuyuan Kelly Fu, Nimrod Gileadi, Marissa Giustina, Keerthana Gopalakrishnan, Leonard Hasenclever, Jan Humplik, Jasmine Hsu, Nikhil Joshi, Ben Jyenis, Chase Kew, Sean Kirmani, Tsang-Wei Edward Lee, Kuang-Huei Lee, Assaf Hurwitz Michaely, Joss Moore, Ken Oslund, Dushyant Rao, Allen Ren, Baruch Tabanpour, Quan Vuong, Ayzaan Wahid, Ted Xiao, Ying Xu, Vincent Zhuang, Peng Xu, Erik Frey, Ken Caluwaerts, Tingnan Zhang, Brian Ichter, Jonathan Tompson, Leila Takayama, Vincent Vanhoucke, Izhak Shafran, Maja Mataric, Dorsa Sadigh, Nicolas Heess, Kanishka Rao, Nik Stewart, Jie Tan, Carolina Parada
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) demonstraram exibir uma ampla gama de capacidades, como escrever código para robôs a partir de comandos de linguagem — permitindo que não especialistas direcionem comportamentos de robôs, os modifiquem com base em feedback ou os combinem para realizar novas tarefas. No entanto, essas capacidades (impulsionadas pelo aprendizado em contexto) são limitadas a interações de curto prazo, onde o feedback dos usuários permanece relevante apenas enquanto se encaixa no tamanho do contexto do LLM, podendo ser esquecido em interações mais longas. Neste trabalho, investigamos o ajuste fino de LLMs que escrevem código para robôs, para que eles se lembrem de suas interações em contexto e melhorem sua capacidade de aprendizado, ou seja, a eficiência com que se adaptam a entradas humanas (medida pelo número médio de correções antes que o usuário considere a tarefa bem-sucedida). Nossa observação principal é que, quando as interações humano-robô são formuladas como um processo de decisão de Markov parcialmente observável (no qual as entradas de linguagem humana são observações, e as saídas de código do robô são ações), então treinar um LLM para completar interações anteriores pode ser visto como treinar um modelo de dinâmica de transição — que pode ser combinado com técnicas clássicas de robótica, como controle preditivo por modelo (MPC), para descobrir caminhos mais curtos para o sucesso. Isso dá origem ao Controle Preditivo por Modelo de Linguagem (LMPC), uma estrutura que ajusta o PaLM 2 para melhorar sua capacidade de aprendizado em 78 tarefas em 5 diferentes robôs — aumentando as taxas de sucesso no ensino de tarefas não vistas por não especialistas em 26,9% enquanto reduz o número médio de correções humanas de 2,4 para 1,9. Experimentos mostram que o LMPC também produz meta-aprendizes robustos, melhorando a taxa de sucesso do aprendizado em contexto de novas tarefas em robôs e APIs não vistos em 31,5%. Veja vídeos, código e demonstrações em: https://robot-teaching.github.io/.
English
Large language models (LLMs) have been shown to exhibit a wide range of capabilities, such as writing robot code from language commands -- enabling non-experts to direct robot behaviors, modify them based on feedback, or compose them to perform new tasks. However, these capabilities (driven by in-context learning) are limited to short-term interactions, where users' feedback remains relevant for only as long as it fits within the context size of the LLM, and can be forgotten over longer interactions. In this work, we investigate fine-tuning the robot code-writing LLMs, to remember their in-context interactions and improve their teachability i.e., how efficiently they adapt to human inputs (measured by average number of corrections before the user considers the task successful). Our key observation is that when human-robot interactions are formulated as a partially observable Markov decision process (in which human language inputs are observations, and robot code outputs are actions), then training an LLM to complete previous interactions can be viewed as training a transition dynamics model -- that can be combined with classic robotics techniques such as model predictive control (MPC) to discover shorter paths to success. This gives rise to Language Model Predictive Control (LMPC), a framework that fine-tunes PaLM 2 to improve its teachability on 78 tasks across 5 robot embodiments -- improving non-expert teaching success rates of unseen tasks by 26.9% while reducing the average number of human corrections from 2.4 to 1.9. Experiments show that LMPC also produces strong meta-learners, improving the success rate of in-context learning new tasks on unseen robot embodiments and APIs by 31.5%. See videos, code, and demos at: https://robot-teaching.github.io/.
PDF222December 15, 2024