Planifier, Éliminer et Suivre -- Les Modèles de Langage sont d'Excellents Enseignants pour les Agents Incarnés
Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents
May 3, 2023
Auteurs: Yue Wu, So Yeon Min, Yonatan Bisk, Ruslan Salakhutdinov, Amos Azaria, Yuanzhi Li, Tom Mitchell, Shrimai Prabhumoye
cs.AI
Résumé
Les grands modèles de langage pré-entraînés (LLM) capturent des connaissances procédurales sur le monde. Des travaux récents ont exploité la capacité des LLM à générer des plans abstraits pour simplifier des tâches de contrôle complexes, soit par notation d'actions, soit par modélisation d'actions (fine-tuning). Cependant, l'architecture des transformers présente plusieurs contraintes qui rendent difficile l'utilisation directe du LLM comme agent : par exemple, des longueurs d'entrée limitées, une inefficacité du fine-tuning, des biais issus du pré-entraînement, et une incompatibilité avec des environnements non textuels. Pour maintenir la compatibilité avec un acteur entraîné à bas niveau, nous proposons plutôt d'utiliser les connaissances des LLM pour simplifier le problème de contrôle, plutôt que de le résoudre. Nous proposons le cadre Plan, Éliminer et Suivre (PET). Le module Plan traduit une description de tâche en une liste de sous-tâches de haut niveau. Le module Éliminer masque les objets et réceptacles non pertinents de l'observation pour la sous-tâche actuelle. Enfin, le module Suivre détermine si l'agent a accompli chaque sous-tâche. Sur le benchmark AlfWorld de suivi d'instructions, le cadre PET conduit à une amélioration significative de 15 % par rapport à l'état de l'art pour la généralisation aux spécifications d'objectifs humains.
English
Pre-trained large language models (LLMs) capture procedural knowledge about
the world. Recent work has leveraged LLM's ability to generate abstract plans
to simplify challenging control tasks, either by action scoring, or action
modeling (fine-tuning). However, the transformer architecture inherits several
constraints that make it difficult for the LLM to directly serve as the agent:
e.g. limited input lengths, fine-tuning inefficiency, bias from pre-training,
and incompatibility with non-text environments. To maintain compatibility with
a low-level trainable actor, we propose to instead use the knowledge in LLMs to
simplify the control problem, rather than solving it. We propose the Plan,
Eliminate, and Track (PET) framework. The Plan module translates a task
description into a list of high-level sub-tasks. The Eliminate module masks out
irrelevant objects and receptacles from the observation for the current
sub-task. Finally, the Track module determines whether the agent has
accomplished each sub-task. On the AlfWorld instruction following benchmark,
the PET framework leads to a significant 15% improvement over SOTA for
generalization to human goal specifications.