Grote Taalmodellen als generaliseerbare beleidsfuncties voor belichaamde taken
Large Language Models as Generalizable Policies for Embodied Tasks
October 26, 2023
Auteurs: Andrew Szot, Max Schwarzer, Harsh Agrawal, Bogdan Mazoure, Walter Talbott, Katherine Metcalf, Natalie Mackraz, Devon Hjelm, Alexander Toshev
cs.AI
Samenvatting
We tonen aan dat grote taalmodellen (LLMs) kunnen worden aangepast om generaliseerbare beleidsregels te zijn voor belichaamde visuele taken. Onze aanpak, genaamd Large LAnguage model Reinforcement Learning Policy (LLaRP), past een vooraf getraind bevroren LLM aan om tekstinstructies en visuele egocentrische observaties als invoer te nemen en acties direct in de omgeving uit te voeren. Met behulp van reinforcement learning trainen we LLaRP om uitsluitend te zien en te handelen via interacties met de omgeving. We tonen aan dat LLaRP robuust is tegen complexe parafraseringen van taakinstructies en kan generaliseren naar nieuwe taken die nieuw optimaal gedrag vereisen. In het bijzonder behaalt het op 1.000 onbekende taken een slagingspercentage van 42%, wat 1,7x het slagingspercentage is van andere veelgebruikte geleerde basislijnen of zero-shot toepassingen van LLMs. Tot slot, om de gemeenschap te ondersteunen bij het bestuderen van taalgeconditioneerde, massaal multi-task, belichaamde AI-problemen, brengen we een nieuwe benchmark uit, Language Rearrangement, bestaande uit 150.000 trainings- en 1.000 testtaken voor taalgeconditioneerde herschikking. Video-voorbeelden van LLaRP in onbekende Language Rearrangement-instructies zijn te vinden op https://llm-rl.github.io.
English
We show that large language models (LLMs) can be adapted to be generalizable
policies for embodied visual tasks. Our approach, called Large LAnguage model
Reinforcement Learning Policy (LLaRP), adapts a pre-trained frozen LLM to take
as input text instructions and visual egocentric observations and output
actions directly in the environment. Using reinforcement learning, we train
LLaRP to see and act solely through environmental interactions. We show that
LLaRP is robust to complex paraphrasings of task instructions and can
generalize to new tasks that require novel optimal behavior. In particular, on
1,000 unseen tasks it achieves 42% success rate, 1.7x the success rate of other
common learned baselines or zero-shot applications of LLMs. Finally, to aid the
community in studying language conditioned, massively multi-task, embodied AI
problems we release a novel benchmark, Language Rearrangement, consisting of
150,000 training and 1,000 testing tasks for language-conditioned
rearrangement. Video examples of LLaRP in unseen Language Rearrangement
instructions are at https://llm-rl.github.io.