Grote Taalmodellen als generaliseerbare beleidsfuncties voor belichaamde taken

Samenvatting

We tonen aan dat grote taalmodellen (LLMs) kunnen worden aangepast om generaliseerbare beleidsregels te zijn voor belichaamde visuele taken. Onze aanpak, genaamd Large LAnguage model Reinforcement Learning Policy (LLaRP), past een vooraf getraind bevroren LLM aan om tekstinstructies en visuele egocentrische observaties als invoer te nemen en acties direct in de omgeving uit te voeren. Met behulp van reinforcement learning trainen we LLaRP om uitsluitend te zien en te handelen via interacties met de omgeving. We tonen aan dat LLaRP robuust is tegen complexe parafraseringen van taakinstructies en kan generaliseren naar nieuwe taken die nieuw optimaal gedrag vereisen. In het bijzonder behaalt het op 1.000 onbekende taken een slagingspercentage van 42%, wat 1,7x het slagingspercentage is van andere veelgebruikte geleerde basislijnen of zero-shot toepassingen van LLMs. Tot slot, om de gemeenschap te ondersteunen bij het bestuderen van taalgeconditioneerde, massaal multi-task, belichaamde AI-problemen, brengen we een nieuwe benchmark uit, Language Rearrangement, bestaande uit 150.000 trainings- en 1.000 testtaken voor taalgeconditioneerde herschikking. Video-voorbeelden van LLaRP in onbekende Language Rearrangement-instructies zijn te vinden op https://llm-rl.github.io.

English

We show that large language models (LLMs) can be adapted to be generalizable policies for embodied visual tasks. Our approach, called Large LAnguage model Reinforcement Learning Policy (LLaRP), adapts a pre-trained frozen LLM to take as input text instructions and visual egocentric observations and output actions directly in the environment. Using reinforcement learning, we train LLaRP to see and act solely through environmental interactions. We show that LLaRP is robust to complex paraphrasings of task instructions and can generalize to new tasks that require novel optimal behavior. In particular, on 1,000 unseen tasks it achieves 42% success rate, 1.7x the success rate of other common learned baselines or zero-shot applications of LLMs. Finally, to aid the community in studying language conditioned, massively multi-task, embodied AI problems we release a novel benchmark, Language Rearrangement, consisting of 150,000 training and 1,000 testing tasks for language-conditioned rearrangement. Video examples of LLaRP in unseen Language Rearrangement instructions are at https://llm-rl.github.io.

Grote Taalmodellen als generaliseerbare beleidsfuncties voor belichaamde taken

Large Language Models as Generalizable Policies for Embodied Tasks

Samenvatting

Support