ChatPaper.aiChatPaper

Statler : Modèles de langage à maintien d'état pour le raisonnement incarné

Statler: State-Maintaining Language Models for Embodied Reasoning

June 30, 2023
Auteurs: Takuma Yoneda, Jiading Fang, Peng Li, Huanyu Zhang, Tianchong Jiang, Shengjie Lin, Ben Picker, David Yunis, Hongyuan Mei, Matthew R. Walter
cs.AI

Résumé

Les grands modèles de langage (LLMs) constituent un outil prometteur permettant aux robots d'exécuter des tâches de raisonnement complexe. Cependant, la fenêtre de contexte limitée des LLMs contemporains rend difficile le raisonnement sur de longues périodes temporelles. Les tâches incarnées, comme celles qu'un robot domestique pourrait être amené à réaliser, nécessitent généralement que le planificateur prenne en compte des informations acquises bien auparavant (par exemple, les propriétés des nombreux objets que le robot a précédemment rencontrés dans son environnement). Les tentatives de capturer l'état du monde en utilisant la représentation interne implicite d'un LLM sont compliquées par le manque d'informations pertinentes pour la tâche et l'environnement disponibles dans l'historique des actions du robot, tandis que les méthodes qui reposent sur la capacité à transmettre des informations via l'invite au LLM sont limitées par sa fenêtre de contexte restreinte. Dans cet article, nous proposons Statler, un cadre qui dote les LLMs d'une représentation explicite de l'état du monde sous forme de « mémoire » maintenue dans le temps. L'élément central de Statler est l'utilisation de deux instances de LLMs généraux — un lecteur de modèle du monde et un écrivain de modèle du monde — qui interagissent avec et maintiennent l'état du monde. En fournissant un accès à cette « mémoire » de l'état du monde, Statler améliore la capacité des LLMs existants à raisonner sur de plus longues périodes temporelles sans être contraints par la longueur du contexte. Nous évaluons l'efficacité de notre approche sur trois domaines simulés de manipulation sur table et un domaine de robot réel, et montrons qu'elle améliore l'état de l'art en matière de raisonnement robotique basé sur les LLMs. Site web du projet : https://statler-lm.github.io/
English
Large language models (LLMs) provide a promising tool that enable robots to perform complex robot reasoning tasks. However, the limited context window of contemporary LLMs makes reasoning over long time horizons difficult. Embodied tasks such as those that one might expect a household robot to perform typically require that the planner consider information acquired a long time ago (e.g., properties of the many objects that the robot previously encountered in the environment). Attempts to capture the world state using an LLM's implicit internal representation is complicated by the paucity of task- and environment-relevant information available in a robot's action history, while methods that rely on the ability to convey information via the prompt to the LLM are subject to its limited context window. In this paper, we propose Statler, a framework that endows LLMs with an explicit representation of the world state as a form of ``memory'' that is maintained over time. Integral to Statler is its use of two instances of general LLMs -- a world-model reader and a world-model writer -- that interface with and maintain the world state. By providing access to this world state ``memory'', Statler improves the ability of existing LLMs to reason over longer time horizons without the constraint of context length. We evaluate the effectiveness of our approach on three simulated table-top manipulation domains and a real robot domain, and show that it improves the state-of-the-art in LLM-based robot reasoning. Project website: https://statler-lm.github.io/
PDF120December 15, 2024