Statler: Taalmodellen met staatsoverdracht voor embodied reasoning

Samenvatting

Grote taalmodellen (LLM's) bieden een veelbelovend hulpmiddel waarmee robots complexe redeneertaken kunnen uitvoeren. Het beperkte contextvenster van hedendaagse LLM's maakt het echter moeilijk om over lange tijdsperioden te redeneren. Belichaamde taken, zoals die men van een huishoudrobot zou verwachten, vereisen doorgaans dat de planner informatie in overweging neemt die lang geleden is verkregen (bijvoorbeeld eigenschappen van de vele objecten die de robot eerder in de omgeving is tegengekomen). Pogingen om de wereldtoestand vast te leggen met behulp van de impliciete interne representatie van een LLM worden bemoeilijkt door het gebrek aan taak- en omgevingsrelevante informatie in de actiegeschiedenis van een robot, terwijl methoden die vertrouwen op het vermogen om informatie via de prompt aan het LLM door te geven, beperkt worden door het beperkte contextvenster. In dit artikel stellen we Statler voor, een raamwerk dat LLM's voorziet van een expliciete representatie van de wereldtoestand als een vorm van 'geheugen' dat in de tijd wordt onderhouden. Centraal in Statler staat het gebruik van twee instanties van algemene LLM's – een wereldmodel-lezer en een wereldmodel-schrijver – die communiceren met en de wereldtoestand onderhouden. Door toegang te bieden tot dit wereldtoestand-'geheugen', verbetert Statler het vermogen van bestaande LLM's om over langere tijdsperioden te redeneren zonder de beperking van contextlengte. We evalueren de effectiviteit van onze aanpak in drie gesimuleerde tafelbladmanipulatiedomeinen en een echt robotdomein, en tonen aan dat het de stand van de techniek in LLM-gebaseerd robotredeneren verbetert. Projectwebsite: https://statler-lm.github.io/

English

Large language models (LLMs) provide a promising tool that enable robots to perform complex robot reasoning tasks. However, the limited context window of contemporary LLMs makes reasoning over long time horizons difficult. Embodied tasks such as those that one might expect a household robot to perform typically require that the planner consider information acquired a long time ago (e.g., properties of the many objects that the robot previously encountered in the environment). Attempts to capture the world state using an LLM's implicit internal representation is complicated by the paucity of task- and environment-relevant information available in a robot's action history, while methods that rely on the ability to convey information via the prompt to the LLM are subject to its limited context window. In this paper, we propose Statler, a framework that endows LLMs with an explicit representation of the world state as a form of ``memory'' that is maintained over time. Integral to Statler is its use of two instances of general LLMs -- a world-model reader and a world-model writer -- that interface with and maintain the world state. By providing access to this world state ``memory'', Statler improves the ability of existing LLMs to reason over longer time horizons without the constraint of context length. We evaluate the effectiveness of our approach on three simulated table-top manipulation domains and a real robot domain, and show that it improves the state-of-the-art in LLM-based robot reasoning. Project website: https://statler-lm.github.io/

Statler: Taalmodellen met staatsoverdracht voor embodied reasoning

Statler: State-Maintaining Language Models for Embodied Reasoning

Samenvatting

Support