ChatPaper.aiChatPaper

I Modelli Linguistici di Grande Scala come Politiche Generalizzabili per Compiti Embodied

Large Language Models as Generalizable Policies for Embodied Tasks

October 26, 2023
Autori: Andrew Szot, Max Schwarzer, Harsh Agrawal, Bogdan Mazoure, Walter Talbott, Katherine Metcalf, Natalie Mackraz, Devon Hjelm, Alexander Toshev
cs.AI

Abstract

Dimostriamo che i grandi modelli linguistici (LLM) possono essere adattati per diventare politiche generalizzabili per compiti visivi incarnati. Il nostro approccio, denominato Large LAnguage model Reinforcement Learning Policy (LLaRP), adatta un LLM pre-addestrato e congelato per ricevere come input istruzioni testuali e osservazioni visive egocentriche e produrre azioni direttamente nell'ambiente. Utilizzando l'apprendimento per rinforzo, addestriamo LLaRP a vedere e agire esclusivamente attraverso interazioni ambientali. Mostriamo che LLaRP è robusto rispetto a parafrasi complesse delle istruzioni dei compiti e può generalizzare a nuovi compiti che richiedono comportamenti ottimali innovativi. In particolare, su 1.000 compiti non visti in precedenza, raggiunge un tasso di successo del 42%, 1,7 volte superiore rispetto ad altre baseline comuni apprese o applicazioni zero-shot di LLM. Infine, per aiutare la comunità a studiare problemi di IA incarnata, multi-task massicci e condizionati dal linguaggio, rilasciamo un nuovo benchmark, Language Rearrangement, composto da 150.000 compiti di addestramento e 1.000 compiti di test per il riarrangiamento condizionato dal linguaggio. Esempi video di LLaRP in istruzioni non viste di Language Rearrangement sono disponibili su https://llm-rl.github.io.
English
We show that large language models (LLMs) can be adapted to be generalizable policies for embodied visual tasks. Our approach, called Large LAnguage model Reinforcement Learning Policy (LLaRP), adapts a pre-trained frozen LLM to take as input text instructions and visual egocentric observations and output actions directly in the environment. Using reinforcement learning, we train LLaRP to see and act solely through environmental interactions. We show that LLaRP is robust to complex paraphrasings of task instructions and can generalize to new tasks that require novel optimal behavior. In particular, on 1,000 unseen tasks it achieves 42% success rate, 1.7x the success rate of other common learned baselines or zero-shot applications of LLMs. Finally, to aid the community in studying language conditioned, massively multi-task, embodied AI problems we release a novel benchmark, Language Rearrangement, consisting of 150,000 training and 1,000 testing tasks for language-conditioned rearrangement. Video examples of LLaRP in unseen Language Rearrangement instructions are at https://llm-rl.github.io.
PDF71February 8, 2026