I Modelli Linguistici di Grande Scala come Politiche Generalizzabili per Compiti Embodied
Large Language Models as Generalizable Policies for Embodied Tasks
October 26, 2023
Autori: Andrew Szot, Max Schwarzer, Harsh Agrawal, Bogdan Mazoure, Walter Talbott, Katherine Metcalf, Natalie Mackraz, Devon Hjelm, Alexander Toshev
cs.AI
Abstract
Dimostriamo che i grandi modelli linguistici (LLM) possono essere adattati per diventare politiche generalizzabili per compiti visivi incarnati. Il nostro approccio, denominato Large LAnguage model Reinforcement Learning Policy (LLaRP), adatta un LLM pre-addestrato e congelato per ricevere come input istruzioni testuali e osservazioni visive egocentriche e produrre azioni direttamente nell'ambiente. Utilizzando l'apprendimento per rinforzo, addestriamo LLaRP a vedere e agire esclusivamente attraverso interazioni ambientali. Mostriamo che LLaRP è robusto rispetto a parafrasi complesse delle istruzioni dei compiti e può generalizzare a nuovi compiti che richiedono comportamenti ottimali innovativi. In particolare, su 1.000 compiti non visti in precedenza, raggiunge un tasso di successo del 42%, 1,7 volte superiore rispetto ad altre baseline comuni apprese o applicazioni zero-shot di LLM. Infine, per aiutare la comunità a studiare problemi di IA incarnata, multi-task massicci e condizionati dal linguaggio, rilasciamo un nuovo benchmark, Language Rearrangement, composto da 150.000 compiti di addestramento e 1.000 compiti di test per il riarrangiamento condizionato dal linguaggio. Esempi video di LLaRP in istruzioni non viste di Language Rearrangement sono disponibili su https://llm-rl.github.io.
English
We show that large language models (LLMs) can be adapted to be generalizable
policies for embodied visual tasks. Our approach, called Large LAnguage model
Reinforcement Learning Policy (LLaRP), adapts a pre-trained frozen LLM to take
as input text instructions and visual egocentric observations and output
actions directly in the environment. Using reinforcement learning, we train
LLaRP to see and act solely through environmental interactions. We show that
LLaRP is robust to complex paraphrasings of task instructions and can
generalize to new tasks that require novel optimal behavior. In particular, on
1,000 unseen tasks it achieves 42% success rate, 1.7x the success rate of other
common learned baselines or zero-shot applications of LLMs. Finally, to aid the
community in studying language conditioned, massively multi-task, embodied AI
problems we release a novel benchmark, Language Rearrangement, consisting of
150,000 training and 1,000 testing tasks for language-conditioned
rearrangement. Video examples of LLaRP in unseen Language Rearrangement
instructions are at https://llm-rl.github.io.