Modelos de Linguagem de Grande Escala como Políticas Generalizáveis para Tarefas Embarcadas

Resumo

Demonstramos que grandes modelos de linguagem (LLMs, do inglês Large Language Models) podem ser adaptados para se tornarem políticas generalizáveis para tarefas visuais corporificadas. Nossa abordagem, denominada Large LAnguage model Reinforcement Learning Policy (LLaRP), adapta um LLM pré-treinado e congelado para receber como entrada instruções textuais e observações visuais egocêntricas, e gerar ações diretamente no ambiente. Utilizando aprendizado por reforço, treinamos o LLaRP para ver e agir exclusivamente por meio de interações ambientais. Mostramos que o LLaRP é robusto a paráfrases complexas de instruções de tarefas e pode generalizar para novas tarefas que exigem comportamentos ótimos inéditos. Em particular, em 1.000 tarefas não vistas, ele alcança uma taxa de sucesso de 42%, 1,7 vezes a taxa de sucesso de outras abordagens comuns de aprendizado ou aplicações zero-shot de LLMs. Por fim, para auxiliar a comunidade no estudo de problemas de IA corporificada, condicionada por linguagem e de múltiplas tarefas, lançamos um novo benchmark, chamado Language Rearrangement, composto por 150.000 tarefas de treinamento e 1.000 tarefas de teste para rearranjo condicionado por linguagem. Exemplos em vídeo do LLaRP em instruções não vistas do Language Rearrangement estão disponíveis em https://llm-rl.github.io.

English

We show that large language models (LLMs) can be adapted to be generalizable policies for embodied visual tasks. Our approach, called Large LAnguage model Reinforcement Learning Policy (LLaRP), adapts a pre-trained frozen LLM to take as input text instructions and visual egocentric observations and output actions directly in the environment. Using reinforcement learning, we train LLaRP to see and act solely through environmental interactions. We show that LLaRP is robust to complex paraphrasings of task instructions and can generalize to new tasks that require novel optimal behavior. In particular, on 1,000 unseen tasks it achieves 42% success rate, 1.7x the success rate of other common learned baselines or zero-shot applications of LLMs. Finally, to aid the community in studying language conditioned, massively multi-task, embodied AI problems we release a novel benchmark, Language Rearrangement, consisting of 150,000 training and 1,000 testing tasks for language-conditioned rearrangement. Video examples of LLaRP in unseen Language Rearrangement instructions are at https://llm-rl.github.io.

Modelos de Linguagem de Grande Escala como Políticas Generalizáveis para Tarefas Embarcadas

Large Language Models as Generalizable Policies for Embodied Tasks

Resumo

Support