Statler: Modelos de Linguagem com Manutenção de Estado para Raciocínio Embarcado

Resumo

Modelos de linguagem de grande escala (LLMs) oferecem uma ferramenta promissora que permite que robôs realizem tarefas complexas de raciocínio robótico. No entanto, a janela de contexto limitada dos LLMs contemporâneos torna difícil o raciocínio em horizontes temporais longos. Tarefas corporificadas, como aquelas que se esperaria que um robô doméstico realizasse, geralmente exigem que o planejador considere informações adquiridas há muito tempo (por exemplo, propriedades dos muitos objetos que o robô encontrou anteriormente no ambiente). Tentativas de capturar o estado do mundo usando a representação interna implícita de um LLM são complicadas pela escassez de informações relevantes para a tarefa e o ambiente disponíveis no histórico de ações do robô, enquanto métodos que dependem da capacidade de transmitir informações via prompt para o LLM estão sujeitos à sua janela de contexto limitada. Neste artigo, propomos Statler, um framework que dota LLMs com uma representação explícita do estado do mundo como uma forma de "memória" que é mantida ao longo do tempo. Integral ao Statler é o uso de duas instâncias de LLMs gerais — um leitor de modelo do mundo e um escritor de modelo do mundo — que interagem com e mantêm o estado do mundo. Ao fornecer acesso a essa "memória" do estado do mundo, o Statler melhora a capacidade dos LLMs existentes de raciocinar em horizontes temporais mais longos sem a restrição do comprimento do contexto. Avaliamos a eficácia de nossa abordagem em três domínios simulados de manipulação em mesa e um domínio de robô real, e mostramos que ela melhora o estado da arte no raciocínio robótico baseado em LLM. Site do projeto: https://statler-lm.github.io/

English

Large language models (LLMs) provide a promising tool that enable robots to perform complex robot reasoning tasks. However, the limited context window of contemporary LLMs makes reasoning over long time horizons difficult. Embodied tasks such as those that one might expect a household robot to perform typically require that the planner consider information acquired a long time ago (e.g., properties of the many objects that the robot previously encountered in the environment). Attempts to capture the world state using an LLM's implicit internal representation is complicated by the paucity of task- and environment-relevant information available in a robot's action history, while methods that rely on the ability to convey information via the prompt to the LLM are subject to its limited context window. In this paper, we propose Statler, a framework that endows LLMs with an explicit representation of the world state as a form of ``memory'' that is maintained over time. Integral to Statler is its use of two instances of general LLMs -- a world-model reader and a world-model writer -- that interface with and maintain the world state. By providing access to this world state ``memory'', Statler improves the ability of existing LLMs to reason over longer time horizons without the constraint of context length. We evaluate the effectiveness of our approach on three simulated table-top manipulation domains and a real robot domain, and show that it improves the state-of-the-art in LLM-based robot reasoning. Project website: https://statler-lm.github.io/

Statler: Modelos de Linguagem com Manutenção de Estado para Raciocínio Embarcado

Statler: State-Maintaining Language Models for Embodied Reasoning

Resumo

Support