Память рабочего процесса агента
Agent Workflow Memory
September 11, 2024
Авторы: Zora Zhiruo Wang, Jiayuan Mao, Daniel Fried, Graham Neubig
cs.AI
Аннотация
Несмотря на потенциал агентов на основе языковых моделей для решения задач реального мира, таких как навигация в Интернете, текущие методы все еще испытывают трудности с задачами длительного горизонта с комплексными траекториями действий. В отличие от этого, люди могут гибко решать сложные задачи, изучая повторно используемые рабочие процессы из прошлого опыта и используя их для направления будущих действий. Для создания агентов, которые могут аналогичным образом извлекать пользу из этого процесса, мы представляем Агентскую Память Рабочего Процесса (AWM), метод для индукции часто повторяемых рабочих процессов, т.е. рабочих процессов, и выборочного предоставления их агенту для направления последующих поколений. AWM гибко применяется как в офлайн, так и в онлайн сценариях, где агенты индуцируют рабочие процессы заранее из обучающих примеров или на лету из тестовых запросов. Мы проводим эксперименты на двух крупных бенчмарках навигации по веб-сайтам - Mind2Web и WebArena - которые в совокупности охватывают 1000+ задач из 200+ доменов в областях путешествий, покупок и социальных медиа, среди прочих. AWM значительно улучшает базовые результаты на 24.6% и 51.1% относительного уровня успешности на Mind2Web и WebArena, сокращая количество шагов, необходимых для успешного решения задач WebArena. Более того, онлайн AWM устойчиво обобщается в кросс-задачевых, веб-сайтовых и доменных оценках, превосходя базовые показатели на 8.9 до 14.0 абсолютных пунктов по мере расширения разрывов в распределении задач обучения и тестирования.
English
Despite the potential of language model-based agents to solve real-world
tasks such as web navigation, current methods still struggle with long-horizon
tasks with complex action trajectories. In contrast, humans can flexibly solve
complex tasks by learning reusable task workflows from past experiences and
using them to guide future actions. To build agents that can similarly benefit
from this process, we introduce Agent Workflow Memory (AWM), a method for
inducing commonly reused routines, i.e., workflows, and selectively providing
workflows to the agent to guide subsequent generations. AWM flexibly applies to
both offline and online scenarios, where agents induce workflows from training
examples beforehand or from test queries on the fly. We experiment on two major
web navigation benchmarks -- Mind2Web and WebArena -- that collectively cover
1000+ tasks from 200+ domains across travel, shopping, and social media, among
others. AWM substantially improves the baseline results by 24.6% and 51.1%
relative success rate on Mind2Web and WebArena while reducing the number of
steps taken to solve WebArena tasks successfully. Furthermore, online AWM
robustly generalizes in cross-task, website, and domain evaluations, surpassing
baselines from 8.9 to 14.0 absolute points as train-test task distribution gaps
widen.