Pianifica, Elimina e Monitora -- I Modelli Linguistici sono Ottimi Insegnanti per Agenti Embodied

Abstract

I modelli linguistici pre-addestrati su larga scala (LLM) catturano conoscenze procedurali sul mondo. Recenti lavori hanno sfruttato la capacità degli LLM di generare piani astratti per semplificare compiti di controllo complessi, sia attraverso il punteggio delle azioni, sia attraverso la modellazione delle azioni (fine-tuning). Tuttavia, l'architettura transformer eredita diversi vincoli che rendono difficile per l'LLM fungere direttamente come agente: ad esempio, lunghezze di input limitate, inefficienza nel fine-tuning, bias derivanti dal pre-addestramento e incompatibilità con ambienti non testuali. Per mantenere la compatibilità con un attore addestrabile a basso livello, proponiamo invece di utilizzare la conoscenza negli LLM per semplificare il problema di controllo, piuttosto che risolverlo. Proponiamo il framework Plan, Eliminate, and Track (PET). Il modulo Plan traduce una descrizione del compito in una lista di sotto-compiti di alto livello. Il modulo Eliminate maschera oggetti e contenitori irrilevanti dall'osservazione per il sotto-compito corrente. Infine, il modulo Track determina se l'agente ha completato ciascun sotto-compito. Sul benchmark AlfWorld per il seguimento di istruzioni, il framework PET porta a un significativo miglioramento del 15% rispetto allo stato dell'arte per la generalizzazione alle specifiche degli obiettivi umani.

English

Pre-trained large language models (LLMs) capture procedural knowledge about the world. Recent work has leveraged LLM's ability to generate abstract plans to simplify challenging control tasks, either by action scoring, or action modeling (fine-tuning). However, the transformer architecture inherits several constraints that make it difficult for the LLM to directly serve as the agent: e.g. limited input lengths, fine-tuning inefficiency, bias from pre-training, and incompatibility with non-text environments. To maintain compatibility with a low-level trainable actor, we propose to instead use the knowledge in LLMs to simplify the control problem, rather than solving it. We propose the Plan, Eliminate, and Track (PET) framework. The Plan module translates a task description into a list of high-level sub-tasks. The Eliminate module masks out irrelevant objects and receptacles from the observation for the current sub-task. Finally, the Track module determines whether the agent has accomplished each sub-task. On the AlfWorld instruction following benchmark, the PET framework leads to a significant 15% improvement over SOTA for generalization to human goal specifications.

Pianifica, Elimina e Monitora -- I Modelli Linguistici sono Ottimi Insegnanti per Agenti Embodied

Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents

Abstract

Support