Agent-Workflow-Speicher
Agent Workflow Memory
September 11, 2024
Autoren: Zora Zhiruo Wang, Jiayuan Mao, Daniel Fried, Graham Neubig
cs.AI
Zusammenfassung
Trotz des Potenzials von sprachmodellbasierten Agenten, reale Aufgaben wie die Webnavigation zu lösen, haben aktuelle Methoden immer noch Schwierigkeiten mit langfristigen Aufgaben mit komplexen Aktionsverläufen. Im Gegensatz dazu können Menschen komplexe Aufgaben flexibel lösen, indem sie wiederverwendbare Aufgabenabläufe aus vergangenen Erfahrungen lernen und diese nutzen, um zukünftige Handlungen zu lenken. Um Agenten aufzubauen, die ähnlich von diesem Prozess profitieren können, stellen wir Agent Workflow Memory (AWM) vor, eine Methode zur Induktion von häufig wiederverwendeten Routinen, d.h. Workflows, und zur selektiven Bereitstellung von Workflows für den Agenten, um nachfolgende Generationen zu lenken. AWM kann flexibel auf sowohl Offline- als auch Online-Szenarien angewendet werden, in denen Agenten Workflows entweder im Voraus aus Trainingsbeispielen induzieren oder sie spontan aus Testanfragen generieren. Wir führen Experimente an zwei wichtigen Webnavigationstests -- Mind2Web und WebArena -- durch, die zusammen über 1000 Aufgaben aus mehr als 200 Bereichen wie Reisen, Einkaufen und sozialen Medien abdecken. AWM verbessert die Ausgangsergebnisse signifikant um 24,6 % bzw. 51,1 % relative Erfolgsquote auf Mind2Web und WebArena und reduziert gleichzeitig die Anzahl der Schritte, die zur erfolgreichen Lösung von WebArena-Aufgaben erforderlich sind. Darüber hinaus generalisiert Online-AWM robust in Cross-Task-, Website- und Domain-Bewertungen und übertrifft Baselines um 8,9 bis 14,0 absolute Punkte, wenn die Lücken in der Trainings-Test-Aufgabenverteilung zunehmen.
English
Despite the potential of language model-based agents to solve real-world
tasks such as web navigation, current methods still struggle with long-horizon
tasks with complex action trajectories. In contrast, humans can flexibly solve
complex tasks by learning reusable task workflows from past experiences and
using them to guide future actions. To build agents that can similarly benefit
from this process, we introduce Agent Workflow Memory (AWM), a method for
inducing commonly reused routines, i.e., workflows, and selectively providing
workflows to the agent to guide subsequent generations. AWM flexibly applies to
both offline and online scenarios, where agents induce workflows from training
examples beforehand or from test queries on the fly. We experiment on two major
web navigation benchmarks -- Mind2Web and WebArena -- that collectively cover
1000+ tasks from 200+ domains across travel, shopping, and social media, among
others. AWM substantially improves the baseline results by 24.6% and 51.1%
relative success rate on Mind2Web and WebArena while reducing the number of
steps taken to solve WebArena tasks successfully. Furthermore, online AWM
robustly generalizes in cross-task, website, and domain evaluations, surpassing
baselines from 8.9 to 14.0 absolute points as train-test task distribution gaps
widen.Summary
AI-Generated Summary