Statler: Языковые модели с поддержанием состояния для воплощённого рассуждения
Statler: State-Maintaining Language Models for Embodied Reasoning
June 30, 2023
Авторы: Takuma Yoneda, Jiading Fang, Peng Li, Huanyu Zhang, Tianchong Jiang, Shengjie Lin, Ben Picker, David Yunis, Hongyuan Mei, Matthew R. Walter
cs.AI
Аннотация
Крупные языковые модели (LLMs) представляют собой перспективный инструмент, позволяющий роботам выполнять сложные задачи, требующие рассуждений. Однако ограниченный размер контекстного окна современных LLMs затрудняет рассуждения на длительных временных горизонтах. Задачи, связанные с физическим взаимодействием, такие как те, которые может выполнять домашний робот, обычно требуют, чтобы планировщик учитывал информацию, полученную давно (например, свойства множества объектов, с которыми робот ранее сталкивался в окружающей среде). Попытки зафиксировать состояние мира с использованием неявного внутреннего представления LLM осложняются недостатком информации, релевантной задаче и окружению, в истории действий робота, в то время как методы, полагающиеся на передачу информации через промт LLM, ограничены её контекстным окном. В данной статье мы предлагаем Statler — фреймворк, который наделяет LLM явным представлением состояния мира в форме «памяти», сохраняемой с течением времени. Ключевым элементом Statler является использование двух экземпляров общих LLM — читателя модели мира и писателя модели мира, — которые взаимодействуют с состоянием мира и поддерживают его. Предоставляя доступ к этой «памяти» состояния мира, Statler улучшает способность существующих LLM рассуждать на более длительных временных горизонтах без ограничений, связанных с длиной контекста. Мы оцениваем эффективность нашего подхода на трёх симулированных областях манипуляций на столе и на реальной роботизированной области, демонстрируя, что он улучшает современные достижения в области роботизированных рассуждений на основе LLM. Сайт проекта: https://statler-lm.github.io/
English
Large language models (LLMs) provide a promising tool that enable robots to
perform complex robot reasoning tasks. However, the limited context window of
contemporary LLMs makes reasoning over long time horizons difficult. Embodied
tasks such as those that one might expect a household robot to perform
typically require that the planner consider information acquired a long time
ago (e.g., properties of the many objects that the robot previously encountered
in the environment). Attempts to capture the world state using an LLM's
implicit internal representation is complicated by the paucity of task- and
environment-relevant information available in a robot's action history, while
methods that rely on the ability to convey information via the prompt to the
LLM are subject to its limited context window. In this paper, we propose
Statler, a framework that endows LLMs with an explicit representation of the
world state as a form of ``memory'' that is maintained over time. Integral to
Statler is its use of two instances of general LLMs -- a world-model reader and
a world-model writer -- that interface with and maintain the world state. By
providing access to this world state ``memory'', Statler improves the ability
of existing LLMs to reason over longer time horizons without the constraint of
context length. We evaluate the effectiveness of our approach on three
simulated table-top manipulation domains and a real robot domain, and show that
it improves the state-of-the-art in LLM-based robot reasoning. Project website:
https://statler-lm.github.io/