Memória do Fluxo de Trabalho do Agente
Agent Workflow Memory
September 11, 2024
Autores: Zora Zhiruo Wang, Jiayuan Mao, Daniel Fried, Graham Neubig
cs.AI
Resumo
Apesar do potencial de agentes baseados em modelos de linguagem para resolver tarefas do mundo real, como navegação na web, os métodos atuais ainda enfrentam dificuldades com tarefas de longo prazo com trajetórias de ação complexas. Em contraste, os humanos podem resolver de forma flexível tarefas complexas aprendendo fluxos de trabalho de tarefas reutilizáveis a partir de experiências passadas e usando-os para orientar ações futuras. Para construir agentes que possam se beneficiar de forma semelhante desse processo, introduzimos a Memória de Fluxo de Trabalho do Agente (AWM), um método para induzir rotinas comumente reutilizadas, ou seja, fluxos de trabalho, e fornecer seletivamente fluxos de trabalho ao agente para orientar gerações subsequentes. AWM se aplica de forma flexível a cenários offline e online, onde os agentes induzem fluxos de trabalho a partir de exemplos de treinamento antecipadamente ou a partir de consultas de teste no momento. Experimentamos em dois grandes benchmarks de navegação na web - Mind2Web e WebArena - que cobrem coletivamente 1000+ tarefas de 200+ domínios, incluindo viagens, compras e redes sociais, entre outros. AWM melhora substancialmente os resultados base em 24,6% e 51,1% de taxa de sucesso relativa no Mind2Web e WebArena, reduzindo o número de etapas necessárias para resolver com sucesso as tarefas do WebArena. Além disso, o AWM online generaliza de forma robusta em avaliações cruzadas de tarefas, sites e domínios, superando os resultados base de 8,9 a 14,0 pontos absolutos à medida que as lacunas de distribuição de tarefas de treinamento e teste se ampliam.
English
Despite the potential of language model-based agents to solve real-world
tasks such as web navigation, current methods still struggle with long-horizon
tasks with complex action trajectories. In contrast, humans can flexibly solve
complex tasks by learning reusable task workflows from past experiences and
using them to guide future actions. To build agents that can similarly benefit
from this process, we introduce Agent Workflow Memory (AWM), a method for
inducing commonly reused routines, i.e., workflows, and selectively providing
workflows to the agent to guide subsequent generations. AWM flexibly applies to
both offline and online scenarios, where agents induce workflows from training
examples beforehand or from test queries on the fly. We experiment on two major
web navigation benchmarks -- Mind2Web and WebArena -- that collectively cover
1000+ tasks from 200+ domains across travel, shopping, and social media, among
others. AWM substantially improves the baseline results by 24.6% and 51.1%
relative success rate on Mind2Web and WebArena while reducing the number of
steps taken to solve WebArena tasks successfully. Furthermore, online AWM
robustly generalizes in cross-task, website, and domain evaluations, surpassing
baselines from 8.9 to 14.0 absolute points as train-test task distribution gaps
widen.Summary
AI-Generated Summary