Statler: Modelli Linguistici con Mantenimento dello Stato per il Ragionamento Embodied
Statler: State-Maintaining Language Models for Embodied Reasoning
June 30, 2023
Autori: Takuma Yoneda, Jiading Fang, Peng Li, Huanyu Zhang, Tianchong Jiang, Shengjie Lin, Ben Picker, David Yunis, Hongyuan Mei, Matthew R. Walter
cs.AI
Abstract
I grandi modelli linguistici (LLM) rappresentano uno strumento promettente che consente ai robot di eseguire compiti di ragionamento complessi. Tuttavia, la finestra di contesto limitata degli LLM contemporanei rende difficile il ragionamento su orizzonti temporali lunghi. Compiti incarnati, come quelli che ci si aspetterebbe da un robot domestico, richiedono tipicamente che il pianificatore consideri informazioni acquisite molto tempo prima (ad esempio, le proprietà dei numerosi oggetti che il robot ha incontrato precedentemente nell'ambiente). I tentativi di catturare lo stato del mondo utilizzando la rappresentazione interna implicita di un LLM sono complicati dalla scarsità di informazioni rilevanti per il compito e per l'ambiente disponibili nella cronologia delle azioni del robot, mentre i metodi che si basano sulla capacità di trasmettere informazioni tramite il prompt all'LLM sono soggetti alla sua finestra di contesto limitata. In questo articolo, proponiamo Statler, un framework che fornisce agli LLM una rappresentazione esplicita dello stato del mondo come forma di "memoria" che viene mantenuta nel tempo. Elemento integrante di Statler è l'uso di due istanze di LLM generici - un lettore del modello del mondo e uno scrittore del modello del mondo - che interagiscono con e mantengono lo stato del mondo. Fornendo accesso a questa "memoria" dello stato del mondo, Statler migliora la capacità degli LLM esistenti di ragionare su orizzonti temporali più lunghi senza il vincolo della lunghezza del contesto. Valutiamo l'efficacia del nostro approccio su tre domini simulati di manipolazione su tavolo e su un dominio robotico reale, dimostrando che esso migliora lo stato dell'arte nel ragionamento robotico basato su LLM. Sito del progetto: https://statler-lm.github.io/
English
Large language models (LLMs) provide a promising tool that enable robots to
perform complex robot reasoning tasks. However, the limited context window of
contemporary LLMs makes reasoning over long time horizons difficult. Embodied
tasks such as those that one might expect a household robot to perform
typically require that the planner consider information acquired a long time
ago (e.g., properties of the many objects that the robot previously encountered
in the environment). Attempts to capture the world state using an LLM's
implicit internal representation is complicated by the paucity of task- and
environment-relevant information available in a robot's action history, while
methods that rely on the ability to convey information via the prompt to the
LLM are subject to its limited context window. In this paper, we propose
Statler, a framework that endows LLMs with an explicit representation of the
world state as a form of ``memory'' that is maintained over time. Integral to
Statler is its use of two instances of general LLMs -- a world-model reader and
a world-model writer -- that interface with and maintain the world state. By
providing access to this world state ``memory'', Statler improves the ability
of existing LLMs to reason over longer time horizons without the constraint of
context length. We evaluate the effectiveness of our approach on three
simulated table-top manipulation domains and a real robot domain, and show that
it improves the state-of-the-art in LLM-based robot reasoning. Project website:
https://statler-lm.github.io/