Memoria del Flusso di Lavoro dell'Agente
Agent Workflow Memory
September 11, 2024
Autori: Zora Zhiruo Wang, Jiayuan Mao, Daniel Fried, Graham Neubig
cs.AI
Abstract
Nonostante il potenziale degli agenti basati su modelli linguistici per risolvere compiti del mondo reale come la navigazione web, i metodi attuali faticano ancora con compiti a lungo termine con traiettorie d'azione complesse. Al contrario, gli esseri umani possono risolvere in modo flessibile compiti complessi imparando flussi di lavoro riutilizzabili da esperienze passate e usando tali flussi per guidare azioni future. Per costruire agenti che possano beneficiare in modo simile da questo processo, introduciamo la Memoria del Flusso di Lavoro dell'Agente (AWM), un metodo per indurre routine comunemente riutilizzate, cioè flussi di lavoro, e fornire selettivamente flussi di lavoro all'agente per guidare le generazioni successive. AWM si applica in modo flessibile sia a scenari offline che online, dove gli agenti inducono flussi di lavoro dagli esempi di addestramento in anticipo o dalle query di test al volo. Sperimentiamo su due importanti benchmark di navigazione web - Mind2Web e WebArena - che coprono complessivamente 1000+ compiti da 200+ domini tra viaggi, shopping e social media, tra gli altri. AWM migliora in modo sostanziale i risultati di base del 24,6% e del 51,1% sul tasso di successo relativo su Mind2Web e WebArena riducendo il numero di passaggi necessari per risolvere con successo i compiti di WebArena. Inoltre, AWM online generalizza in modo robusto nelle valutazioni cross-task, cross-website e cross-domain, superando i risultati di base da 8,9 a 14,0 punti assoluti man mano che si ampliano i divari nella distribuzione dei compiti di addestramento e test.
English
Despite the potential of language model-based agents to solve real-world
tasks such as web navigation, current methods still struggle with long-horizon
tasks with complex action trajectories. In contrast, humans can flexibly solve
complex tasks by learning reusable task workflows from past experiences and
using them to guide future actions. To build agents that can similarly benefit
from this process, we introduce Agent Workflow Memory (AWM), a method for
inducing commonly reused routines, i.e., workflows, and selectively providing
workflows to the agent to guide subsequent generations. AWM flexibly applies to
both offline and online scenarios, where agents induce workflows from training
examples beforehand or from test queries on the fly. We experiment on two major
web navigation benchmarks -- Mind2Web and WebArena -- that collectively cover
1000+ tasks from 200+ domains across travel, shopping, and social media, among
others. AWM substantially improves the baseline results by 24.6% and 51.1%
relative success rate on Mind2Web and WebArena while reducing the number of
steps taken to solve WebArena tasks successfully. Furthermore, online AWM
robustly generalizes in cross-task, website, and domain evaluations, surpassing
baselines from 8.9 to 14.0 absolute points as train-test task distribution gaps
widen.Summary
AI-Generated Summary