Planifier, Éliminer et Suivre -- Les Modèles de Langage sont d'Excellents Enseignants pour les Agents Incarnés

Résumé

Les grands modèles de langage pré-entraînés (LLM) capturent des connaissances procédurales sur le monde. Des travaux récents ont exploité la capacité des LLM à générer des plans abstraits pour simplifier des tâches de contrôle complexes, soit par notation d'actions, soit par modélisation d'actions (fine-tuning). Cependant, l'architecture des transformers présente plusieurs contraintes qui rendent difficile l'utilisation directe du LLM comme agent : par exemple, des longueurs d'entrée limitées, une inefficacité du fine-tuning, des biais issus du pré-entraînement, et une incompatibilité avec des environnements non textuels. Pour maintenir la compatibilité avec un acteur entraîné à bas niveau, nous proposons plutôt d'utiliser les connaissances des LLM pour simplifier le problème de contrôle, plutôt que de le résoudre. Nous proposons le cadre Plan, Éliminer et Suivre (PET). Le module Plan traduit une description de tâche en une liste de sous-tâches de haut niveau. Le module Éliminer masque les objets et réceptacles non pertinents de l'observation pour la sous-tâche actuelle. Enfin, le module Suivre détermine si l'agent a accompli chaque sous-tâche. Sur le benchmark AlfWorld de suivi d'instructions, le cadre PET conduit à une amélioration significative de 15 % par rapport à l'état de l'art pour la généralisation aux spécifications d'objectifs humains.

English

Pre-trained large language models (LLMs) capture procedural knowledge about the world. Recent work has leveraged LLM's ability to generate abstract plans to simplify challenging control tasks, either by action scoring, or action modeling (fine-tuning). However, the transformer architecture inherits several constraints that make it difficult for the LLM to directly serve as the agent: e.g. limited input lengths, fine-tuning inefficiency, bias from pre-training, and incompatibility with non-text environments. To maintain compatibility with a low-level trainable actor, we propose to instead use the knowledge in LLMs to simplify the control problem, rather than solving it. We propose the Plan, Eliminate, and Track (PET) framework. The Plan module translates a task description into a list of high-level sub-tasks. The Eliminate module masks out irrelevant objects and receptacles from the observation for the current sub-task. Finally, the Track module determines whether the agent has accomplished each sub-task. On the AlfWorld instruction following benchmark, the PET framework leads to a significant 15% improvement over SOTA for generalization to human goal specifications.

Planifier, Éliminer et Suivre -- Les Modèles de Langage sont d'Excellents Enseignants pour les Agents Incarnés

Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents

Résumé

Support