Обучение более быстрому обучению на основе обратной связи от человека с использованием прогнозного управления языковой моделью

Аннотация

Крупные языковые модели (LLM) продемонстрировали широкий спектр возможностей, таких как написание кода для роботов на основе языковых команд, что позволяет неспециалистам управлять поведением роботов, корректировать его на основе обратной связи или комбинировать для выполнения новых задач. Однако эти возможности (основанные на обучении в контексте) ограничены краткосрочными взаимодействиями, где обратная связь пользователя остается актуальной только до тех пор, пока она укладывается в размер контекста LLM, и может быть забыта в более длительных взаимодействиях. В данной работе мы исследуем тонкую настройку LLM, генерирующих код для роботов, чтобы они запоминали свои контекстные взаимодействия и улучшали свою обучаемость, то есть насколько эффективно они адаптируются к человеческим вводам (измеряется средним количеством исправлений до того, как пользователь сочтет задачу успешной). Наше ключевое наблюдение заключается в том, что когда взаимодействия человека и робота формулируются как частично наблюдаемый марковский процесс принятия решений (где языковые вводы человека являются наблюдениями, а выходы кода робота — действиями), то обучение LLM завершать предыдущие взаимодействия можно рассматривать как обучение модели динамики переходов, которую можно комбинировать с классическими методами робототехники, такими как прогнозирующее управление на основе модели (MPC), для поиска более коротких путей к успеху. Это приводит к созданию Language Model Predictive Control (LMPC) — фреймворка, который тонко настраивает PaLM 2 для улучшения его обучаемости на 78 задачах для 5 различных реализаций роботов, повышая успешность обучения неспециалистов новым задачам на 26,9% и сокращая среднее количество человеческих исправлений с 2,4 до 1,9. Эксперименты показывают, что LMPC также создает сильных мета-обучающихся, повышая успешность обучения в контексте новым задачам для неизвестных реализаций роботов и API на 31,5%. Видео, код и демонстрации доступны по ссылке: https://robot-teaching.github.io/.

English

Large language models (LLMs) have been shown to exhibit a wide range of capabilities, such as writing robot code from language commands -- enabling non-experts to direct robot behaviors, modify them based on feedback, or compose them to perform new tasks. However, these capabilities (driven by in-context learning) are limited to short-term interactions, where users' feedback remains relevant for only as long as it fits within the context size of the LLM, and can be forgotten over longer interactions. In this work, we investigate fine-tuning the robot code-writing LLMs, to remember their in-context interactions and improve their teachability i.e., how efficiently they adapt to human inputs (measured by average number of corrections before the user considers the task successful). Our key observation is that when human-robot interactions are formulated as a partially observable Markov decision process (in which human language inputs are observations, and robot code outputs are actions), then training an LLM to complete previous interactions can be viewed as training a transition dynamics model -- that can be combined with classic robotics techniques such as model predictive control (MPC) to discover shorter paths to success. This gives rise to Language Model Predictive Control (LMPC), a framework that fine-tunes PaLM 2 to improve its teachability on 78 tasks across 5 robot embodiments -- improving non-expert teaching success rates of unseen tasks by 26.9% while reducing the average number of human corrections from 2.4 to 1.9. Experiments show that LMPC also produces strong meta-learners, improving the success rate of in-context learning new tasks on unseen robot embodiments and APIs by 31.5%. See videos, code, and demos at: https://robot-teaching.github.io/.

Обучение более быстрому обучению на основе обратной связи от человека с использованием прогнозного управления языковой моделью

Learning to Learn Faster from Human Feedback with Language Model Predictive Control

Аннотация

Support