Statler: Modelos de Lenguaje con Mantenimiento de Estado para Razonamiento Embebido

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ofrecen una herramienta prometedora que permite a los robots realizar tareas complejas de razonamiento robótico. Sin embargo, la ventana de contexto limitada de los LLMs contemporáneos dificulta el razonamiento a lo largo de horizontes temporales prolongados. Las tareas encarnadas, como las que podría realizar un robot doméstico, suelen requerir que el planificador considere información adquirida hace mucho tiempo (por ejemplo, propiedades de los numerosos objetos que el robot encontró previamente en el entorno). Los intentos de capturar el estado del mundo utilizando la representación interna implícita de un LLM se complican debido a la escasez de información relevante para la tarea y el entorno disponible en el historial de acciones del robot, mientras que los métodos que dependen de la capacidad de transmitir información mediante el prompt al LLM están sujetos a su ventana de contexto limitada. En este artículo, proponemos Statler, un marco que dota a los LLMs de una representación explícita del estado del mundo como una forma de "memoria" que se mantiene en el tiempo. Esencial para Statler es su uso de dos instancias de LLMs generales —un lector de modelo del mundo y un escritor de modelo del mundo— que interactúan con el estado del mundo y lo mantienen. Al proporcionar acceso a esta "memoria" del estado del mundo, Statler mejora la capacidad de los LLMs existentes para razonar a lo largo de horizontes temporales más largos sin la restricción de la longitud del contexto. Evaluamos la efectividad de nuestro enfoque en tres dominios simulados de manipulación en mesas y un dominio de robot real, y demostramos que mejora el estado del arte en el razonamiento robótico basado en LLMs. Sitio web del proyecto: https://statler-lm.github.io/

English

Large language models (LLMs) provide a promising tool that enable robots to perform complex robot reasoning tasks. However, the limited context window of contemporary LLMs makes reasoning over long time horizons difficult. Embodied tasks such as those that one might expect a household robot to perform typically require that the planner consider information acquired a long time ago (e.g., properties of the many objects that the robot previously encountered in the environment). Attempts to capture the world state using an LLM's implicit internal representation is complicated by the paucity of task- and environment-relevant information available in a robot's action history, while methods that rely on the ability to convey information via the prompt to the LLM are subject to its limited context window. In this paper, we propose Statler, a framework that endows LLMs with an explicit representation of the world state as a form of ``memory'' that is maintained over time. Integral to Statler is its use of two instances of general LLMs -- a world-model reader and a world-model writer -- that interface with and maintain the world state. By providing access to this world state ``memory'', Statler improves the ability of existing LLMs to reason over longer time horizons without the constraint of context length. We evaluate the effectiveness of our approach on three simulated table-top manipulation domains and a real robot domain, and show that it improves the state-of-the-art in LLM-based robot reasoning. Project website: https://statler-lm.github.io/

Statler: Modelos de Lenguaje con Mantenimiento de Estado para Razonamiento Embebido

Statler: State-Maintaining Language Models for Embodied Reasoning

Resumen

Support