Statler: Zustandserhaltende Sprachmodelle für verkörpertes Schließen
Statler: State-Maintaining Language Models for Embodied Reasoning
June 30, 2023
Autoren: Takuma Yoneda, Jiading Fang, Peng Li, Huanyu Zhang, Tianchong Jiang, Shengjie Lin, Ben Picker, David Yunis, Hongyuan Mei, Matthew R. Walter
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) bieten ein vielversprechendes Werkzeug, das Robotern ermöglicht, komplexe Denkaufgaben zu bewältigen. Das begrenzte Kontextfenster zeitgenössischer LLMs erschwert jedoch das Denken über lange Zeiträume hinweg. Verkörperte Aufgaben, wie sie beispielsweise von einem Haushaltsroboter erwartet werden könnten, erfordern in der Regel, dass der Planer Informationen berücksichtigt, die vor langer Zeit erworben wurden (z. B. Eigenschaften der vielen Objekte, denen der Roboter zuvor in der Umgebung begegnet ist). Versuche, den Weltzustand mit der impliziten internen Repräsentation eines LLMs zu erfassen, werden durch den Mangel an aufgaben- und umgebungsrelevanten Informationen in der Aktionshistorie des Roboters erschwert, während Methoden, die sich auf die Fähigkeit verlassen, Informationen über den Prompt an das LLM zu übermitteln, durch dessen begrenztes Kontextfenster eingeschränkt sind. In diesem Artikel schlagen wir Statler vor, ein Framework, das LLMs mit einer expliziten Repräsentation des Weltzustands als eine Form von „Gedächtnis“ ausstattet, das über die Zeit hinweg aufrechterhalten wird. Integraler Bestandteil von Statler ist die Verwendung von zwei Instanzen allgemeiner LLMs – einem Weltmodell-Leser und einem Weltmodell-Schreiber –, die mit dem Weltzustand interagieren und diesen aufrechterhalten. Durch den Zugriff auf dieses „Gedächtnis“ des Weltzustands verbessert Statler die Fähigkeit bestehender LLMs, über längere Zeiträume hinweg zu denken, ohne durch die Länge des Kontexts eingeschränkt zu sein. Wir bewerten die Wirksamkeit unseres Ansatzes in drei simulierten Tischmanipulationsdomänen und einer realen Roboterdoman und zeigen, dass er den Stand der Technik in der LLM-basierten Roboterdenkfähigkeit verbessert. Projektwebsite: https://statler-lm.github.io/
English
Large language models (LLMs) provide a promising tool that enable robots to
perform complex robot reasoning tasks. However, the limited context window of
contemporary LLMs makes reasoning over long time horizons difficult. Embodied
tasks such as those that one might expect a household robot to perform
typically require that the planner consider information acquired a long time
ago (e.g., properties of the many objects that the robot previously encountered
in the environment). Attempts to capture the world state using an LLM's
implicit internal representation is complicated by the paucity of task- and
environment-relevant information available in a robot's action history, while
methods that rely on the ability to convey information via the prompt to the
LLM are subject to its limited context window. In this paper, we propose
Statler, a framework that endows LLMs with an explicit representation of the
world state as a form of ``memory'' that is maintained over time. Integral to
Statler is its use of two instances of general LLMs -- a world-model reader and
a world-model writer -- that interface with and maintain the world state. By
providing access to this world state ``memory'', Statler improves the ability
of existing LLMs to reason over longer time horizons without the constraint of
context length. We evaluate the effectiveness of our approach on three
simulated table-top manipulation domains and a real robot domain, and show that
it improves the state-of-the-art in LLM-based robot reasoning. Project website:
https://statler-lm.github.io/