Memória do Fluxo de Trabalho do Agente

Resumo

Apesar do potencial de agentes baseados em modelos de linguagem para resolver tarefas do mundo real, como navegação na web, os métodos atuais ainda enfrentam dificuldades com tarefas de longo prazo com trajetórias de ação complexas. Em contraste, os humanos podem resolver de forma flexível tarefas complexas aprendendo fluxos de trabalho de tarefas reutilizáveis a partir de experiências passadas e usando-os para orientar ações futuras. Para construir agentes que possam se beneficiar de forma semelhante desse processo, introduzimos a Memória de Fluxo de Trabalho do Agente (AWM), um método para induzir rotinas comumente reutilizadas, ou seja, fluxos de trabalho, e fornecer seletivamente fluxos de trabalho ao agente para orientar gerações subsequentes. AWM se aplica de forma flexível a cenários offline e online, onde os agentes induzem fluxos de trabalho a partir de exemplos de treinamento antecipadamente ou a partir de consultas de teste no momento. Experimentamos em dois grandes benchmarks de navegação na web - Mind2Web e WebArena - que cobrem coletivamente 1000+ tarefas de 200+ domínios, incluindo viagens, compras e redes sociais, entre outros. AWM melhora substancialmente os resultados base em 24,6% e 51,1% de taxa de sucesso relativa no Mind2Web e WebArena, reduzindo o número de etapas necessárias para resolver com sucesso as tarefas do WebArena. Além disso, o AWM online generaliza de forma robusta em avaliações cruzadas de tarefas, sites e domínios, superando os resultados base de 8,9 a 14,0 pontos absolutos à medida que as lacunas de distribuição de tarefas de treinamento e teste se ampliam.

English

Despite the potential of language model-based agents to solve real-world tasks such as web navigation, current methods still struggle with long-horizon tasks with complex action trajectories. In contrast, humans can flexibly solve complex tasks by learning reusable task workflows from past experiences and using them to guide future actions. To build agents that can similarly benefit from this process, we introduce Agent Workflow Memory (AWM), a method for inducing commonly reused routines, i.e., workflows, and selectively providing workflows to the agent to guide subsequent generations. AWM flexibly applies to both offline and online scenarios, where agents induce workflows from training examples beforehand or from test queries on the fly. We experiment on two major web navigation benchmarks -- Mind2Web and WebArena -- that collectively cover 1000+ tasks from 200+ domains across travel, shopping, and social media, among others. AWM substantially improves the baseline results by 24.6% and 51.1% relative success rate on Mind2Web and WebArena while reducing the number of steps taken to solve WebArena tasks successfully. Furthermore, online AWM robustly generalizes in cross-task, website, and domain evaluations, surpassing baselines from 8.9 to 14.0 absolute points as train-test task distribution gaps widen.