Große Sprachmodelle als generalisierbare Strategien für verkörperte Aufgaben

papers.abstract

Wir zeigen, dass große Sprachmodelle (LLMs) so angepasst werden können, dass sie als generalisierbare Strategien für verkörperte visuelle Aufgaben dienen. Unser Ansatz, genannt Large LAnguage model Reinforcement Learning Policy (LLaRP), adaptiert ein vortrainiertes, eingefrorenes LLM, um Textanweisungen und visuelle egozentrische Beobachtungen als Eingabe zu nehmen und direkt Aktionen in der Umgebung auszugeben. Mithilfe von Reinforcement Learning trainieren wir LLaRP, ausschließlich durch Umgebungsinteraktionen zu sehen und zu handeln. Wir zeigen, dass LLaRP robust gegenüber komplexen Paraphrasierungen von Aufgabenanweisungen ist und sich auf neue Aufgaben verallgemeinern lässt, die neuartiges optimales Verhalten erfordern. Insbesondere erreicht es bei 1.000 unbekannten Aufgaben eine Erfolgsrate von 42 %, was das 1,7-fache der Erfolgsrate anderer gängiger gelernten Baselines oder Zero-Shot-Anwendungen von LLMs ist. Schließlich stellen wir der Gemeinschaft einen neuartigen Benchmark, Language Rearrangement, zur Verfügung, um sprachgesteuerte, massiv multitaskfähige, verkörperte KI-Probleme zu untersuchen. Dieser besteht aus 150.000 Trainings- und 1.000 Testaufgaben für sprachgesteuerte Umordnungen. Video-Beispiele von LLaRP bei unbekannten Language Rearrangement-Anweisungen finden Sie unter https://llm-rl.github.io.

English

We show that large language models (LLMs) can be adapted to be generalizable policies for embodied visual tasks. Our approach, called Large LAnguage model Reinforcement Learning Policy (LLaRP), adapts a pre-trained frozen LLM to take as input text instructions and visual egocentric observations and output actions directly in the environment. Using reinforcement learning, we train LLaRP to see and act solely through environmental interactions. We show that LLaRP is robust to complex paraphrasings of task instructions and can generalize to new tasks that require novel optimal behavior. In particular, on 1,000 unseen tasks it achieves 42% success rate, 1.7x the success rate of other common learned baselines or zero-shot applications of LLMs. Finally, to aid the community in studying language conditioned, massively multi-task, embodied AI problems we release a novel benchmark, Language Rearrangement, consisting of 150,000 training and 1,000 testing tasks for language-conditioned rearrangement. Video examples of LLaRP in unseen Language Rearrangement instructions are at https://llm-rl.github.io.

Große Sprachmodelle als generalisierbare Strategien für verkörperte Aufgaben

Large Language Models as Generalizable Policies for Embodied Tasks

papers.abstract

Support