Aprendiendo a Aprender Más Rápido a partir de la Retroalimentación Humana con Control Predictivo de Modelos de Lenguaje
Learning to Learn Faster from Human Feedback with Language Model Predictive Control
February 18, 2024
Autores: Jacky Liang, Fei Xia, Wenhao Yu, Andy Zeng, Montserrat Gonzalez Arenas, Maria Attarian, Maria Bauza, Matthew Bennice, Alex Bewley, Adil Dostmohamed, Chuyuan Kelly Fu, Nimrod Gileadi, Marissa Giustina, Keerthana Gopalakrishnan, Leonard Hasenclever, Jan Humplik, Jasmine Hsu, Nikhil Joshi, Ben Jyenis, Chase Kew, Sean Kirmani, Tsang-Wei Edward Lee, Kuang-Huei Lee, Assaf Hurwitz Michaely, Joss Moore, Ken Oslund, Dushyant Rao, Allen Ren, Baruch Tabanpour, Quan Vuong, Ayzaan Wahid, Ted Xiao, Ying Xu, Vincent Zhuang, Peng Xu, Erik Frey, Ken Caluwaerts, Tingnan Zhang, Brian Ichter, Jonathan Tompson, Leila Takayama, Vincent Vanhoucke, Izhak Shafran, Maja Mataric, Dorsa Sadigh, Nicolas Heess, Kanishka Rao, Nik Stewart, Jie Tan, Carolina Parada
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado poseer una amplia gama de capacidades, como generar código para robots a partir de comandos en lenguaje natural, lo que permite a no expertos dirigir comportamientos de robots, modificarlos en función de retroalimentación o combinarlos para realizar nuevas tareas. Sin embargo, estas capacidades (impulsadas por el aprendizaje en contexto) están limitadas a interacciones a corto plazo, donde la retroalimentación de los usuarios solo es relevante mientras se ajusta al tamaño del contexto del LLM, y puede olvidarse en interacciones más prolongadas. En este trabajo, investigamos el ajuste fino de los LLMs que generan código para robots, para que recuerden sus interacciones en contexto y mejoren su capacidad de enseñanza, es decir, la eficiencia con la que se adaptan a las entradas humanas (medida por el número promedio de correcciones antes de que el usuario considere la tarea exitosa). Nuestra observación clave es que, cuando las interacciones humano-robot se formulan como un proceso de decisión de Markov parcialmente observable (en el que las entradas de lenguaje humano son observaciones y las salidas de código del robot son acciones), entrenar un LLM para completar interacciones previas puede verse como entrenar un modelo de dinámica de transición, que puede combinarse con técnicas clásicas de robótica, como el control predictivo basado en modelos (MPC), para descubrir caminos más cortos hacia el éxito. Esto da lugar al Control Predictivo con Modelos de Lenguaje (LMPC), un marco que ajusta finamente a PaLM 2 para mejorar su capacidad de enseñanza en 78 tareas en 5 configuraciones de robots, aumentando las tasas de éxito en la enseñanza de tareas no vistas por no expertos en un 26.9% y reduciendo el número promedio de correcciones humanas de 2.4 a 1.9. Los experimentos muestran que LMPC también produce meta-aprendices robustos, mejorando la tasa de éxito del aprendizaje en contexto de nuevas tareas en configuraciones de robots y APIs no vistas en un 31.5%. Consulta videos, código y demostraciones en: https://robot-teaching.github.io/.
English
Large language models (LLMs) have been shown to exhibit a wide range of
capabilities, such as writing robot code from language commands -- enabling
non-experts to direct robot behaviors, modify them based on feedback, or
compose them to perform new tasks. However, these capabilities (driven by
in-context learning) are limited to short-term interactions, where users'
feedback remains relevant for only as long as it fits within the context size
of the LLM, and can be forgotten over longer interactions. In this work, we
investigate fine-tuning the robot code-writing LLMs, to remember their
in-context interactions and improve their teachability i.e., how efficiently
they adapt to human inputs (measured by average number of corrections before
the user considers the task successful). Our key observation is that when
human-robot interactions are formulated as a partially observable Markov
decision process (in which human language inputs are observations, and robot
code outputs are actions), then training an LLM to complete previous
interactions can be viewed as training a transition dynamics model -- that can
be combined with classic robotics techniques such as model predictive control
(MPC) to discover shorter paths to success. This gives rise to Language Model
Predictive Control (LMPC), a framework that fine-tunes PaLM 2 to improve its
teachability on 78 tasks across 5 robot embodiments -- improving non-expert
teaching success rates of unseen tasks by 26.9% while reducing the average
number of human corrections from 2.4 to 1.9. Experiments show that LMPC also
produces strong meta-learners, improving the success rate of in-context
learning new tasks on unseen robot embodiments and APIs by 31.5%. See videos,
code, and demos at: https://robot-teaching.github.io/.