Планируй, Устраняй и Отслеживай — Языковые модели как эффективные наставники для воплощённых агентов
Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents
May 3, 2023
Авторы: Yue Wu, So Yeon Min, Yonatan Bisk, Ruslan Salakhutdinov, Amos Azaria, Yuanzhi Li, Tom Mitchell, Shrimai Prabhumoye
cs.AI
Аннотация
Предварительно обученные большие языковые модели (LLM) фиксируют процедурные знания о мире. В последних работах использовалась способность LLM генерировать абстрактные планы для упрощения сложных задач управления, либо через оценку действий, либо через моделирование действий (тонкую настройку). Однако архитектура трансформеров наследует несколько ограничений, которые затрудняют использование LLM в качестве агента напрямую: например, ограниченная длина входных данных, неэффективность тонкой настройки, смещения из-за предварительного обучения и несовместимость с не текстовыми средами. Для обеспечения совместимости с низкоуровневым обучаемым актором мы предлагаем использовать знания, содержащиеся в LLM, для упрощения задачи управления, а не для её решения. Мы предлагаем фреймворк Plan, Eliminate, and Track (PET). Модуль Plan преобразует описание задачи в список высокоуровневых подзадач. Модуль Eliminate исключает из наблюдения нерелевантные объекты и контейнеры для текущей подзадачи. Наконец, модуль Track определяет, выполнена ли каждая подзадача агентом. На бенчмарке AlfWorld по следованию инструкциям фреймворк PET обеспечивает значительное улучшение на 15% по сравнению с современными методами (SOTA) в обобщении на спецификации целей, заданных человеком.
English
Pre-trained large language models (LLMs) capture procedural knowledge about
the world. Recent work has leveraged LLM's ability to generate abstract plans
to simplify challenging control tasks, either by action scoring, or action
modeling (fine-tuning). However, the transformer architecture inherits several
constraints that make it difficult for the LLM to directly serve as the agent:
e.g. limited input lengths, fine-tuning inefficiency, bias from pre-training,
and incompatibility with non-text environments. To maintain compatibility with
a low-level trainable actor, we propose to instead use the knowledge in LLMs to
simplify the control problem, rather than solving it. We propose the Plan,
Eliminate, and Track (PET) framework. The Plan module translates a task
description into a list of high-level sub-tasks. The Eliminate module masks out
irrelevant objects and receptacles from the observation for the current
sub-task. Finally, the Track module determines whether the agent has
accomplished each sub-task. On the AlfWorld instruction following benchmark,
the PET framework leads to a significant 15% improvement over SOTA for
generalization to human goal specifications.