Statler: Modelos de Lenguaje con Mantenimiento de Estado para Razonamiento Embebido
Statler: State-Maintaining Language Models for Embodied Reasoning
June 30, 2023
Autores: Takuma Yoneda, Jiading Fang, Peng Li, Huanyu Zhang, Tianchong Jiang, Shengjie Lin, Ben Picker, David Yunis, Hongyuan Mei, Matthew R. Walter
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ofrecen una herramienta prometedora que permite a los robots realizar tareas complejas de razonamiento robótico. Sin embargo, la ventana de contexto limitada de los LLMs contemporáneos dificulta el razonamiento a lo largo de horizontes temporales prolongados. Las tareas encarnadas, como las que podría realizar un robot doméstico, suelen requerir que el planificador considere información adquirida hace mucho tiempo (por ejemplo, propiedades de los numerosos objetos que el robot encontró previamente en el entorno). Los intentos de capturar el estado del mundo utilizando la representación interna implícita de un LLM se complican debido a la escasez de información relevante para la tarea y el entorno disponible en el historial de acciones del robot, mientras que los métodos que dependen de la capacidad de transmitir información mediante el prompt al LLM están sujetos a su ventana de contexto limitada. En este artículo, proponemos Statler, un marco que dota a los LLMs de una representación explícita del estado del mundo como una forma de "memoria" que se mantiene en el tiempo. Esencial para Statler es su uso de dos instancias de LLMs generales —un lector de modelo del mundo y un escritor de modelo del mundo— que interactúan con el estado del mundo y lo mantienen. Al proporcionar acceso a esta "memoria" del estado del mundo, Statler mejora la capacidad de los LLMs existentes para razonar a lo largo de horizontes temporales más largos sin la restricción de la longitud del contexto. Evaluamos la efectividad de nuestro enfoque en tres dominios simulados de manipulación en mesas y un dominio de robot real, y demostramos que mejora el estado del arte en el razonamiento robótico basado en LLMs. Sitio web del proyecto: https://statler-lm.github.io/
English
Large language models (LLMs) provide a promising tool that enable robots to
perform complex robot reasoning tasks. However, the limited context window of
contemporary LLMs makes reasoning over long time horizons difficult. Embodied
tasks such as those that one might expect a household robot to perform
typically require that the planner consider information acquired a long time
ago (e.g., properties of the many objects that the robot previously encountered
in the environment). Attempts to capture the world state using an LLM's
implicit internal representation is complicated by the paucity of task- and
environment-relevant information available in a robot's action history, while
methods that rely on the ability to convey information via the prompt to the
LLM are subject to its limited context window. In this paper, we propose
Statler, a framework that endows LLMs with an explicit representation of the
world state as a form of ``memory'' that is maintained over time. Integral to
Statler is its use of two instances of general LLMs -- a world-model reader and
a world-model writer -- that interface with and maintain the world state. By
providing access to this world state ``memory'', Statler improves the ability
of existing LLMs to reason over longer time horizons without the constraint of
context length. We evaluate the effectiveness of our approach on three
simulated table-top manipulation domains and a real robot domain, and show that
it improves the state-of-the-art in LLM-based robot reasoning. Project website:
https://statler-lm.github.io/