Große Sprachmodelle als generalisierbare Strategien für verkörperte Aufgaben
Large Language Models as Generalizable Policies for Embodied Tasks
October 26, 2023
papers.authors: Andrew Szot, Max Schwarzer, Harsh Agrawal, Bogdan Mazoure, Walter Talbott, Katherine Metcalf, Natalie Mackraz, Devon Hjelm, Alexander Toshev
cs.AI
papers.abstract
Wir zeigen, dass große Sprachmodelle (LLMs) so angepasst werden können, dass sie als generalisierbare Strategien für verkörperte visuelle Aufgaben dienen. Unser Ansatz, genannt Large LAnguage model Reinforcement Learning Policy (LLaRP), adaptiert ein vortrainiertes, eingefrorenes LLM, um Textanweisungen und visuelle egozentrische Beobachtungen als Eingabe zu nehmen und direkt Aktionen in der Umgebung auszugeben. Mithilfe von Reinforcement Learning trainieren wir LLaRP, ausschließlich durch Umgebungsinteraktionen zu sehen und zu handeln. Wir zeigen, dass LLaRP robust gegenüber komplexen Paraphrasierungen von Aufgabenanweisungen ist und sich auf neue Aufgaben verallgemeinern lässt, die neuartiges optimales Verhalten erfordern. Insbesondere erreicht es bei 1.000 unbekannten Aufgaben eine Erfolgsrate von 42 %, was das 1,7-fache der Erfolgsrate anderer gängiger gelernten Baselines oder Zero-Shot-Anwendungen von LLMs ist. Schließlich stellen wir der Gemeinschaft einen neuartigen Benchmark, Language Rearrangement, zur Verfügung, um sprachgesteuerte, massiv multitaskfähige, verkörperte KI-Probleme zu untersuchen. Dieser besteht aus 150.000 Trainings- und 1.000 Testaufgaben für sprachgesteuerte Umordnungen. Video-Beispiele von LLaRP bei unbekannten Language Rearrangement-Anweisungen finden Sie unter https://llm-rl.github.io.
English
We show that large language models (LLMs) can be adapted to be generalizable
policies for embodied visual tasks. Our approach, called Large LAnguage model
Reinforcement Learning Policy (LLaRP), adapts a pre-trained frozen LLM to take
as input text instructions and visual egocentric observations and output
actions directly in the environment. Using reinforcement learning, we train
LLaRP to see and act solely through environmental interactions. We show that
LLaRP is robust to complex paraphrasings of task instructions and can
generalize to new tasks that require novel optimal behavior. In particular, on
1,000 unseen tasks it achieves 42% success rate, 1.7x the success rate of other
common learned baselines or zero-shot applications of LLMs. Finally, to aid the
community in studying language conditioned, massively multi-task, embodied AI
problems we release a novel benchmark, Language Rearrangement, consisting of
150,000 training and 1,000 testing tasks for language-conditioned
rearrangement. Video examples of LLaRP in unseen Language Rearrangement
instructions are at https://llm-rl.github.io.