Modelos de Linguagem de Grande Escala como Políticas Generalizáveis para Tarefas Embarcadas
Large Language Models as Generalizable Policies for Embodied Tasks
October 26, 2023
Autores: Andrew Szot, Max Schwarzer, Harsh Agrawal, Bogdan Mazoure, Walter Talbott, Katherine Metcalf, Natalie Mackraz, Devon Hjelm, Alexander Toshev
cs.AI
Resumo
Demonstramos que grandes modelos de linguagem (LLMs, do inglês Large Language Models) podem ser adaptados para se tornarem políticas generalizáveis para tarefas visuais corporificadas. Nossa abordagem, denominada Large LAnguage model Reinforcement Learning Policy (LLaRP), adapta um LLM pré-treinado e congelado para receber como entrada instruções textuais e observações visuais egocêntricas, e gerar ações diretamente no ambiente. Utilizando aprendizado por reforço, treinamos o LLaRP para ver e agir exclusivamente por meio de interações ambientais. Mostramos que o LLaRP é robusto a paráfrases complexas de instruções de tarefas e pode generalizar para novas tarefas que exigem comportamentos ótimos inéditos. Em particular, em 1.000 tarefas não vistas, ele alcança uma taxa de sucesso de 42%, 1,7 vezes a taxa de sucesso de outras abordagens comuns de aprendizado ou aplicações zero-shot de LLMs. Por fim, para auxiliar a comunidade no estudo de problemas de IA corporificada, condicionada por linguagem e de múltiplas tarefas, lançamos um novo benchmark, chamado Language Rearrangement, composto por 150.000 tarefas de treinamento e 1.000 tarefas de teste para rearranjo condicionado por linguagem. Exemplos em vídeo do LLaRP em instruções não vistas do Language Rearrangement estão disponíveis em https://llm-rl.github.io.
English
We show that large language models (LLMs) can be adapted to be generalizable
policies for embodied visual tasks. Our approach, called Large LAnguage model
Reinforcement Learning Policy (LLaRP), adapts a pre-trained frozen LLM to take
as input text instructions and visual egocentric observations and output
actions directly in the environment. Using reinforcement learning, we train
LLaRP to see and act solely through environmental interactions. We show that
LLaRP is robust to complex paraphrasings of task instructions and can
generalize to new tasks that require novel optimal behavior. In particular, on
1,000 unseen tasks it achieves 42% success rate, 1.7x the success rate of other
common learned baselines or zero-shot applications of LLMs. Finally, to aid the
community in studying language conditioned, massively multi-task, embodied AI
problems we release a novel benchmark, Language Rearrangement, consisting of
150,000 training and 1,000 testing tasks for language-conditioned
rearrangement. Video examples of LLaRP in unseen Language Rearrangement
instructions are at https://llm-rl.github.io.