Agent Workflow Geheugen
Agent Workflow Memory
September 11, 2024
Auteurs: Zora Zhiruo Wang, Jiayuan Mao, Daniel Fried, Graham Neubig
cs.AI
Samenvatting
Ondanks het potentieel van op taalmodellen gebaseerde agenten om real-world taken op te lossen zoals webnavigatie, hebben huidige methoden nog steeds moeite met taken op lange termijn met complexe actietrajecten. In tegenstelling hiermee kunnen mensen flexibel complexe taken oplossen door herbruikbare takenworkflows te leren van eerdere ervaringen en deze te gebruiken om toekomstige acties te sturen. Om agenten te bouwen die op een vergelijkbare manier kunnen profiteren van dit proces, introduceren we Agent Workflow Memory (AWM), een methode om veelgebruikte routines, oftewel workflows, op te wekken en selectief workflows aan de agent te verstrekken om toekomstige generaties te sturen. AWM kan flexibel worden toegepast in zowel offline als online scenario's, waarbij agenten workflows opwekken uit trainingsvoorbeelden van tevoren of uit testvragen ter plekke. We voeren experimenten uit op twee belangrijke webnavigatie-benchmarks - Mind2Web en WebArena - die gezamenlijk meer dan 1000 taken uit meer dan 200 domeinen bestrijken, waaronder reizen, winkelen en sociale media, onder andere. AWM verbetert aanzienlijk de baseline resultaten met respectievelijk 24,6% en 51,1% relatief succespercentage op Mind2Web en WebArena, terwijl het aantal stappen dat nodig is om WebArena-taken succesvol op te lossen wordt verminderd. Bovendien generaliseert online AWM robuust in cross-task, website- en domeinevaluaties, waarbij het baselines overtreft met 8,9 tot 14,0 absolute punten naarmate de distributiegaten tussen trainings- en testtaken groter worden.
English
Despite the potential of language model-based agents to solve real-world
tasks such as web navigation, current methods still struggle with long-horizon
tasks with complex action trajectories. In contrast, humans can flexibly solve
complex tasks by learning reusable task workflows from past experiences and
using them to guide future actions. To build agents that can similarly benefit
from this process, we introduce Agent Workflow Memory (AWM), a method for
inducing commonly reused routines, i.e., workflows, and selectively providing
workflows to the agent to guide subsequent generations. AWM flexibly applies to
both offline and online scenarios, where agents induce workflows from training
examples beforehand or from test queries on the fly. We experiment on two major
web navigation benchmarks -- Mind2Web and WebArena -- that collectively cover
1000+ tasks from 200+ domains across travel, shopping, and social media, among
others. AWM substantially improves the baseline results by 24.6% and 51.1%
relative success rate on Mind2Web and WebArena while reducing the number of
steps taken to solve WebArena tasks successfully. Furthermore, online AWM
robustly generalizes in cross-task, website, and domain evaluations, surpassing
baselines from 8.9 to 14.0 absolute points as train-test task distribution gaps
widen.Summary
AI-Generated Summary