Statler: Taalmodellen met staatsoverdracht voor embodied reasoning
Statler: State-Maintaining Language Models for Embodied Reasoning
June 30, 2023
Auteurs: Takuma Yoneda, Jiading Fang, Peng Li, Huanyu Zhang, Tianchong Jiang, Shengjie Lin, Ben Picker, David Yunis, Hongyuan Mei, Matthew R. Walter
cs.AI
Samenvatting
Grote taalmodellen (LLM's) bieden een veelbelovend hulpmiddel waarmee robots complexe redeneertaken kunnen uitvoeren. Het beperkte contextvenster van hedendaagse LLM's maakt het echter moeilijk om over lange tijdsperioden te redeneren. Belichaamde taken, zoals die men van een huishoudrobot zou verwachten, vereisen doorgaans dat de planner informatie in overweging neemt die lang geleden is verkregen (bijvoorbeeld eigenschappen van de vele objecten die de robot eerder in de omgeving is tegengekomen). Pogingen om de wereldtoestand vast te leggen met behulp van de impliciete interne representatie van een LLM worden bemoeilijkt door het gebrek aan taak- en omgevingsrelevante informatie in de actiegeschiedenis van een robot, terwijl methoden die vertrouwen op het vermogen om informatie via de prompt aan het LLM door te geven, beperkt worden door het beperkte contextvenster. In dit artikel stellen we Statler voor, een raamwerk dat LLM's voorziet van een expliciete representatie van de wereldtoestand als een vorm van 'geheugen' dat in de tijd wordt onderhouden. Centraal in Statler staat het gebruik van twee instanties van algemene LLM's – een wereldmodel-lezer en een wereldmodel-schrijver – die communiceren met en de wereldtoestand onderhouden. Door toegang te bieden tot dit wereldtoestand-'geheugen', verbetert Statler het vermogen van bestaande LLM's om over langere tijdsperioden te redeneren zonder de beperking van contextlengte. We evalueren de effectiviteit van onze aanpak in drie gesimuleerde tafelbladmanipulatiedomeinen en een echt robotdomein, en tonen aan dat het de stand van de techniek in LLM-gebaseerd robotredeneren verbetert. Projectwebsite: https://statler-lm.github.io/
English
Large language models (LLMs) provide a promising tool that enable robots to
perform complex robot reasoning tasks. However, the limited context window of
contemporary LLMs makes reasoning over long time horizons difficult. Embodied
tasks such as those that one might expect a household robot to perform
typically require that the planner consider information acquired a long time
ago (e.g., properties of the many objects that the robot previously encountered
in the environment). Attempts to capture the world state using an LLM's
implicit internal representation is complicated by the paucity of task- and
environment-relevant information available in a robot's action history, while
methods that rely on the ability to convey information via the prompt to the
LLM are subject to its limited context window. In this paper, we propose
Statler, a framework that endows LLMs with an explicit representation of the
world state as a form of ``memory'' that is maintained over time. Integral to
Statler is its use of two instances of general LLMs -- a world-model reader and
a world-model writer -- that interface with and maintain the world state. By
providing access to this world state ``memory'', Statler improves the ability
of existing LLMs to reason over longer time horizons without the constraint of
context length. We evaluate the effectiveness of our approach on three
simulated table-top manipulation domains and a real robot domain, and show that
it improves the state-of-the-art in LLM-based robot reasoning. Project website:
https://statler-lm.github.io/