ChatPaper.aiChatPaper

人間のフィードバックからより速く学習するための言語モデル予測制御

Learning to Learn Faster from Human Feedback with Language Model Predictive Control

February 18, 2024
著者: Jacky Liang, Fei Xia, Wenhao Yu, Andy Zeng, Montserrat Gonzalez Arenas, Maria Attarian, Maria Bauza, Matthew Bennice, Alex Bewley, Adil Dostmohamed, Chuyuan Kelly Fu, Nimrod Gileadi, Marissa Giustina, Keerthana Gopalakrishnan, Leonard Hasenclever, Jan Humplik, Jasmine Hsu, Nikhil Joshi, Ben Jyenis, Chase Kew, Sean Kirmani, Tsang-Wei Edward Lee, Kuang-Huei Lee, Assaf Hurwitz Michaely, Joss Moore, Ken Oslund, Dushyant Rao, Allen Ren, Baruch Tabanpour, Quan Vuong, Ayzaan Wahid, Ted Xiao, Ying Xu, Vincent Zhuang, Peng Xu, Erik Frey, Ken Caluwaerts, Tingnan Zhang, Brian Ichter, Jonathan Tompson, Leila Takayama, Vincent Vanhoucke, Izhak Shafran, Maja Mataric, Dorsa Sadigh, Nicolas Heess, Kanishka Rao, Nik Stewart, Jie Tan, Carolina Parada
cs.AI

要旨

大規模言語モデル(LLM)は、言語コマンドからロボットコードを生成するなど、幅広い能力を示すことが実証されています。これにより、非専門家がロボットの動作を指示し、フィードバックに基づいて修正したり、新しいタスクを実行するためにそれらを組み合わせたりすることが可能になります。しかし、これらの能力(コンテキスト内学習によって駆動される)は、短期的な相互作用に限定されており、ユーザーのフィードバックはLLMのコンテキストサイズ内に収まる間のみ関連性を持ち、長期的な相互作用では忘れられる可能性があります。本研究では、ロボットコード生成LLMをファインチューニングし、コンテキスト内の相互作用を記憶させ、その「教えやすさ」(ユーザーがタスクを成功と見なすまでに必要な平均修正回数で測定される)を向上させることを検討します。重要な観察として、人間とロボットの相互作用が部分観測マルコフ決定過程(人間の言語入力が観測、ロボットのコード出力が行動と見なされる)として定式化されると、LLMに過去の相互作用を完了させるように訓練することは、遷移ダイナミクスモデルを訓練することと見なすことができます。これは、モデル予測制御(MPC)などの古典的なロボティクス技術と組み合わせることで、成功への最短経路を発見するために使用できます。これにより、Language Model Predictive Control(LMPC)というフレームワークが生まれ、PaLM 2をファインチューニングして、5つのロボット実装にわたる78のタスクでの教えやすさを向上させます。これにより、未見のタスクにおける非専門家の教育成功率が26.9%向上し、人間の平均修正回数が2.4から1.9に減少しました。実験では、LMPCが強力なメタ学習器を生成することも示されており、未見のロボット実装やAPIでのコンテキスト内学習の成功率が31.5%向上しました。動画、コード、デモはこちらをご覧ください:https://robot-teaching.github.io/。
English
Large language models (LLMs) have been shown to exhibit a wide range of capabilities, such as writing robot code from language commands -- enabling non-experts to direct robot behaviors, modify them based on feedback, or compose them to perform new tasks. However, these capabilities (driven by in-context learning) are limited to short-term interactions, where users' feedback remains relevant for only as long as it fits within the context size of the LLM, and can be forgotten over longer interactions. In this work, we investigate fine-tuning the robot code-writing LLMs, to remember their in-context interactions and improve their teachability i.e., how efficiently they adapt to human inputs (measured by average number of corrections before the user considers the task successful). Our key observation is that when human-robot interactions are formulated as a partially observable Markov decision process (in which human language inputs are observations, and robot code outputs are actions), then training an LLM to complete previous interactions can be viewed as training a transition dynamics model -- that can be combined with classic robotics techniques such as model predictive control (MPC) to discover shorter paths to success. This gives rise to Language Model Predictive Control (LMPC), a framework that fine-tunes PaLM 2 to improve its teachability on 78 tasks across 5 robot embodiments -- improving non-expert teaching success rates of unseen tasks by 26.9% while reducing the average number of human corrections from 2.4 to 1.9. Experiments show that LMPC also produces strong meta-learners, improving the success rate of in-context learning new tasks on unseen robot embodiments and APIs by 31.5%. See videos, code, and demos at: https://robot-teaching.github.io/.
PDF232December 15, 2024